El especulador adaptativo ATLAS de AI ofrece una velocidad de inferencia del 400 % al instruirse de las cargas de trabajo en tiempo verdadero

El especulador adaptativo ATLAS de AI ofrece una velocidad de inferencia del 400 % al instruirse de las cargas de trabajo en tiempo verdadero

Las empresas que amplían las implementaciones de IA se están topando con un tapia de rendimiento invisible. ¿El culpable? Especuladores estáticos que no pueden seguir el ritmo de las cambiantes cargas de trabajo.

Los especuladores son modelos de IA más pequeños que funcionan yuxtapuesto con modelos de habla más grandes durante la inferencia. Elaboran varios tokens por aventajado, que luego el maniquí principal verifica en paralelo. Esta técnica (señal decodificación especulativa) se ha vuelto esencial para las empresas que intentan aminorar los costos de inferencia y la latencia. En división de gestar tokens uno a la vez, el sistema puede aceptar varios tokens a la vez, lo que perfeccionamiento drásticamente el rendimiento.

Juntos IA anunció hoy una investigación y un nuevo sistema llamado ATLAS (AdapTive-LeArning Speculator System) que tiene como objetivo ayudar a las empresas a exceder el desafío de los especuladores estáticos. La técnica proporciona una capacidad de optimización de inferencia de autoaprendizaje que puede ayudar a ofrecer un rendimiento de inferencia hasta un 400% más rápido que un nivel principal de rendimiento apto en tecnologías de inferencia existentes como vLLM. El sistema aborda un problema crítico: a medida que evolucionan las cargas de trabajo de IA, las velocidades de inferencia se degradan, incluso con especuladores especializados en el división.

La empresa que tuvo su eclosión en 2023, se ha centrado en optimizando la inferencia en su plataforma de IA empresarial. A principios de este año la empresa recaudó 305 millones de dólares a medida que la prohijamiento y la demanda de los clientes han aumentado.

"Las empresas con las que trabajamos en caudillo, a medida que crecen, ven cambios en las cargas de trabajo y luego no ven tanta precipitación de la ejecución especulativa como antaño." Tri Dao, verificado patrón de Together AI, dijo a VentureBeat en una entrevista monopolio. "Estos especuladores generalmente no funcionan perfectamente cuando su dominio de carga de trabajo comienza a cambiar."

El problema de la deriva de la carga de trabajo del que nadie acento

La mayoría de los especuladores en la producción presente son "parado" modelos. Se entrenan una vez en un conjunto de datos fijo que representa las cargas de trabajo esperadas y luego se implementan sin ninguna capacidad de habilitación. Empresas como Meta y Mistral envían especuladores previamente capacitados yuxtapuesto con sus modelos principales. Las plataformas de inferencia como vLLM utilizan estos especuladores estáticos para aumentar el rendimiento sin cambiar la calidad de la salida.

Pero hay un problema. Cuando el uso de la IA en una empresa evoluciona, la precisión del especulador parado cae en picado.

"Si usted es una empresa que produce agentes de codificación y la mayoría de sus desarrolladores han estado escribiendo en Python, de repente algunos de ellos cambian a escribir Rust o C, entonces verá que la velocidad comienza a disminuir." Dao explicó. "El especulador no coincide entre aquello en lo que fue entrenado y cuál es la carga de trabajo verdadero."

Esta desviación de la carga de trabajo representa un impuesto oculto a la ampliación de la IA. Las empresas aceptan un rendimiento degradado o invierten en retornar a capacitar a los especuladores personalizados. Ese proceso captura sólo una instantánea en el tiempo y rápidamente queda obsoleto.

Cómo funcionan los especuladores adaptativos: un enfoque de maniquí dual

ATLAS utiliza una edificio de especulador dual que combina estabilidad con habilitación:

El especulador parado – Un maniquí pesado entrenado con datos amplios proporciona un rendimiento de narración consistente. Sirve como un "pavimento de velocidad."

El especulador adaptativo – Un maniquí insignificante aprende continuamente del tráfico en vivo. Se especializa sobre la marcha en dominios y patrones de uso emergentes.

El regulador consciente de la confianza – Una capa de orquestación elige dinámicamente qué especulador usar. Ajusta la especulación "mirar en dirección a delante" basado en puntuaciones de confianza.

"Ayer de que el especulador adaptativo aprenda poco, todavía tenemos al especulador parado para ayudar a proporcionar el impulso de velocidad al principio." Ben Athiwaratkun, verificado de IA de Together AI, explicó a VentureBeat. "Una vez que el especulador adaptativo adquiere más confianza, la velocidad aumenta con el tiempo."

La innovación técnica radica en equilibrar la tasa de consentimiento (con qué frecuencia el maniquí objetivo coincide con los tokens redactados) y la latencia del proyecto. A medida que el maniquí adaptativo aprende de los patrones de tráfico, el regulador confía más en el especulador insignificante y amplía la anticipación. Esto agrava las ganancias de rendimiento.

Los usuarios no necesitan ajustar ningún parámetro. "Del banda del afortunado, los usuarios no tienen que torcer ninguna perilla," Dijo Dao. "Por nuestra parte, hemos girado estas perillas para que los usuarios las ajusten en una configuración que obtenga una buena precipitación."

Rendimiento que rivaliza con el silicio personalizado

Las pruebas de Together AI muestran que ATLAS alcanza los 500 tokens por segundo en DeepSeek-V3.1 cuando está completamente adaptado. Lo más impresionante es que esos números en las GPU Nvidia B200 igualan o superan los chips de inferencia especializados como Groq’s Hardware personalizado.

"La perfeccionamiento software y algorítmica es capaz de cerrar la brecha con hardware efectivamente especializado," Dijo Dao. "Vimos 500 tokens por segundo en estos enormes modelos que son incluso más rápidos que algunos de los chips personalizados."

La precipitación del 400% que la compañía afirma como inferencia representa el objeto acumulativo del conjunto de optimización Turbo de Together. La cuantificación del 4PM ofrece una precipitación del 80 % con respecto a la almohadilla de narración del 8PM. El Turbo Speculator parado añade otra fruto del 80-100%. El sistema adaptativo se superpone. Cada optimización agrava los beneficios de las demás.

En comparación con motores de inferencia tipificado como vllm o TensorRT-LLM de Nvidia, la perfeccionamiento es sustancial. Juntos, la IA se compara con la límite de almohadilla más sólida entre los dos para cada carga de trabajo antaño de aplicar optimizaciones especulativas.

La compensación entre memoria y computación explicada

Las ganancias de rendimiento surgen de la explotación de una ineficiencia fundamental en la inferencia moderna: la capacidad informática desperdiciada.

Dao explicó que normalmente durante la inferencia, gran parte de la potencia informática no se utiliza por completo.

"Durante la inferencia, que en existencia es la carga de trabajo dominante hoy en día, se utiliza principalmente el subsistema de memoria," dijo.

La decodificación especulativa intercambia computación inactiva por un camino estrecho a la memoria. Cuando un maniquí genera un token a la vez, está vinculado a la memoria. La GPU permanece inactiva mientras dilación memoria. Pero cuando el especulador propone cinco tokens y el maniquí objetivo los verifica simultáneamente, la utilización de la computación aumenta mientras que el camino a la memoria permanece aproximadamente constante.

"La cantidad total de cálculo para gestar cinco tokens es la misma, pero solo había que penetrar a la memoria una vez, en división de cinco veces." Dijo Dao.

Piense en ello como un almacenamiento en elegancia inteligente para la IA.

Para los equipos de infraestructura familiarizados con la optimización tradicional de bases de datos, los especuladores adaptativos funcionan como una capa de almacenamiento en elegancia inteligente, pero con una diferencia crucial.

Los sistemas de almacenamiento en elegancia tradicionales como Redis o Memcached requieren coincidencias exactas. Almacena exactamente el mismo resultado de la consulta y lo recupera cuando esa consulta específica se ejecuta nuevamente. Los especuladores adaptativos funcionan de forma diferente.

"Puedes verlo como una forma inteligente de acumular en elegancia, no acumular exactamente, sino descubrir algunos patrones que ves," Dao explicó. "En términos generales, estamos observando que está trabajando con código similar, o trabajando con similar, ya sabe, controlando la computación de forma similar. Entonces podemos predecir lo que dirá el gran maniquí. Cada vez somos mejores en predecir eso."

En división de acumular respuestas exactas, el sistema aprende patrones sobre cómo el maniquí genera tokens. Reconoce que si estás editando archivos Python en una almohadilla de código específica, ciertas secuencias de tokens se vuelven más probables. El especulador se adapta a esos patrones, mejorando sus predicciones con el tiempo sin requerir entradas idénticas.

Casos de uso: capacitación en RL y cargas de trabajo en cambio

Dos escenarios empresariales se benefician particularmente de los especuladores adaptativos:

Entrenamiento de formación por refuerzo: Los especuladores estáticos rápidamente se desalinean a medida que la política evoluciona durante la capacitación. ATLAS se adapta continuamente a la cambiante distribución de políticas.

Cargas de trabajo en cambio: A medida que las empresas descubren nuevos casos de uso de IA, la composición de la carga de trabajo cambia. "Tal vez comenzaron a usar IA para chatbots, pero luego se dieron cuenta de que puede escribir código, así que comenzaron a cambiar al código." Dijo Dao. "O se dan cuenta de que estas IA en existencia pueden clamar herramientas y controlar computadoras y hacer contabilidad y cosas así."

En una sesión de codificación de vibraciones, el sistema adaptativo puede especializarse en la almohadilla de código específica que se está editando. Estos son archivos que no se ven durante el entrenamiento. Esto aumenta aún más las tasas de consentimiento y la velocidad de decodificación.

Qué significa para las empresas y el ecosistema de inferencia

ATLAS ya está apto en los puntos finales dedicados de Together AI como parte de la plataforma sin costo adicional. Los más de 800.000 desarrolladores de la empresa (frente a los 450.000 de febrero) tienen camino a la optimización.

Pero las implicaciones más amplias se extienden más allá del producto de un solo proveedor. El cambio de la optimización estática a la adaptativa representa un replanteamiento fundamental de cómo deberían funcionar las plataformas de inferencia. A medida que las empresas implementen la IA en múltiples dominios, la industria necesitará ir más allá de los modelos entrenados una sola vez en dirección a sistemas que aprendan y mejoren continuamente.

Históricamente, Together AI ha emprendedor algunas de sus técnicas de investigación como código extenso y ha colaborado con proyectos como vLLM. Si perfectamente el sistema ATLAS totalmente integrado es propietario, algunas de las técnicas subyacentes pueden eventualmente influir en el ecosistema de inferencia más amplio.

Para las empresas que buscan liderar la IA, el mensaje es claro: los algoritmos adaptativos en hardware principal pueden igualar el silicio personalizado por una fracción del costo. A medida que este enfoque madura en toda la industria, la optimización del software supera cada vez más al hardware especializado.

Related Posts

Una hoja de ruta para la IA, si cualquiera quiere escuchar

Si correctamente la ruptura de Washington con Anthropic expuso la total yerro de reglas coherentes que gobiernen la inteligencia industrial, una coalición bipartidista de pensadores ha reunido poco que el…

Revisión de Ratcheteer DX: una pequeña aventura al estilo Zelda

Hay muchos juegos que intentan rivalizar. La inscripción de Zeldapero pocos logran capturar ese espíritu en un paquete tan pequeño y conciso como Trinquete DX. El repertorio postapocalíptico solo tarda…

You Missed

Trump reconoce formalmente al gobierno de Venezuela

Trump reconoce formalmente al gobierno de Venezuela

Una hoja de ruta para la IA, si cualquiera quiere escuchar

Una hoja de ruta para la IA, si cualquiera quiere escuchar

escuincle sin brazos sobresale académicamente – Noticiario SIN

escuincle sin brazos sobresale académicamente – Noticiario SIN

Dominicana enfrenta a Países Bajos, un remoto rival en el Clásico Mundial

Dominicana enfrenta a Países Bajos, un remoto rival en el Clásico Mundial

Revisión de Ratcheteer DX: una pequeña aventura al estilo Zelda

Revisión de Ratcheteer DX: una pequeña aventura al estilo Zelda

Abinader se sumará a cumbre de Trump en Miami este fin de semana

Abinader se sumará a cumbre de Trump en Miami este fin de semana