Los investigadores incorporaron aceleraciones de inferencia 3x directamente en pesos LLM, sin decodificación especulativa

Los investigadores incorporaron aceleraciones de inferencia 3x directamente en pesos LLM, sin decodificación especulativa

A medida que los flujos de trabajo de IA agentes multiplican el costo y la latencia de las largas cadenas de razonamiento, un equipo de la Universidad de Maryland, los Laboratorios Nacionales Lawrence Livermore, la Universidad de Columbia y TogetherAI han encontró una guisa de conquistar ganancias de rendimiento 3 veces mayores directamente en los pesos de un maniquí.

A diferencia de la decodificación especulativa, que requiere un maniquí de dibujo separado, este enfoque no requiere infraestructura adicional: solo un token peculiar junto a la construcción existente del maniquí.

Los límites de la predicción del próximo token

La predicción del ulterior token (difundir un token de texto por paso cerca de delante) crea un contorno de rendimiento que se vuelve tremendamente costoso cuando los modelos necesitan producir miles de tokens. Este cuello de botella es especialmente problemático en los modelos de razonamiento, que frecuentemente generan miles de “prisión de pensamiento”tokens antiguamente de producir la respuesta final, lo que genera una experiencia de agraciado lenta y costosa.

La predicción de múltiples tokens (MTP) ofrece un arquetipo de entrenamiento opcional que permite que un maniquí de estilo produzca múltiples tokens simultáneamente en un solo paso cerca de delante. Por ejemplo, el maniquí se puede entrenar para predecir un monolito de tokens de una sola vez en espacio de solo el ulterior token.

John Kirchenbauer, candidato a doctorado en ciencias de la computación en la Universidad de Maryland y coautor del artículo, dijo a VentureBeat que a medida que avanzamos cerca de flujos de trabajo agentes, el enfoque está cambiando del rendimiento común a la velocidad de un solo agraciado. "Hoy en día, regalado que las trazas de pensamiento ultralargas son la norma y los bucles externos agentes multiplican aún más esos costos, la latencia se está convirtiendo en una dimensión tan importante de la eficiencia común del servicio como los tokens brutos por segundo por mecanismo de hardware (tps/GPU)." dijo Kirchenbauer. Dijo que si aceptablemente la predicción unificado del ulterior token por lotes ya es óptima para el rendimiento común, el nuevo enfoque "esfuércese por saturar la GPU con una sola consulta de un solo agraciado para disminuir la latencia para ese único agraciado."

Existen otros métodos, pero tienen sus inconvenientes. "Vale la pena señalar que la decodificación especulativa y los LLM de difusión como una alternativa centrada en la eficiencia a la predicción del ulterior token (NTP) son técnicas de apresuramiento centradas en la latencia." dijo Kirchenbauer. Pero la decodificación especulativa requiere implementar y administrar un sistema auxiliar. "redacción" maniquí, que gasta más cuenta ilimitado para redactar y confirmar. MTP, por su parte, "aprovecha un tipo de compensación similar, simplemente es más sencillo de utilizar y científicamente interesante por derecho propio."

Sin retención, los paradigmas actuales de MTP tienen limitaciones. El objetivo unificado para entrenar un maniquí de estilo para MTP implica comparar sus predicciones con el texto verdadero de un conjunto de datos. El problema es que este entrenamiento unificado enseña al maniquí a predecir la probabilidad de que un token se encuentre en una posición específica de forma independiente, en espacio de preocuparse por la relación conjunta entre una secuencia de tokens.

Si un maniquí intenta predecir varios tokens a la vez utilizando este método unificado, ocurren dos problemas importantes. El primero es la yerro de coincidencia gramatical. Por ejemplo, si un maniquí predice dos palabras posteriormente del prefijo "El cuidador del zoológico alimentó al" podría muestrear de forma independiente y producir una frase que no coincide como "carne de panda" o "bambú valeroso" en espacio de "bambú panda" y “carne de valeroso”.

La segunda cuestión es la repetición degenerada. Conveniente a que el texto característico es impredecible, un maniquí que intente predecir un token 100 posiciones en el futuro frente a un conjunto de datos unificado simplemente predecirá "el," ya que es la palabra más global en inglés. Esto da como resultado que el maniquí genere tonterías como "…el el el…" para puestos de futuro venidero.

Predicción de múltiples tokens mediante autodestilación

Para resolver los problemas de difundir múltiples tokens, los investigadores proponen una técnica de capacitación novedosa que utiliza un esquema estudiante-maestro. Un maniquí de estudiante, que es el maniquí que aprende a predecir múltiples tokens, genera un monolito determinista de múltiples tokens. Un maniquí de avezado, que actúa como un sólido maniquí unificado de estilo de predicción del ulterior token, evalúa ese monolito. El profesor actúa como crítico, calculando qué tan probable y coherente es la secuencia propuesta por el educando. Si el estudiante propone una frase que no coincide como "bambú valeroso," el profesor le asigna una pérdida inscripción, enseñando al educando a evitar esa construcción.

El arquetipo está inspirado en el estudios reforzado basado en políticas porque el maniquí del estudiante no consiste simplemente en memorizar texto parado. Genera un despliegue completo (secuencia de acciones en estilo RL) instantáneamente en paralelo con un único pase cerca de delante y recibe una retribución basada en lo bueno que el avezado cree que es. A diferencia de los métodos estáticos supervisados ​​en los que los pares de entrenamiento se fijan de antemano, la feedback aquí es dinámica y se genera a partir de los propios resultados del estudiante en tiempo verdadero. El profesor cachas igualmente verifica la coherencia de las fichas, lo que evita que el maniquí del estudiante aprenda resultados degenerados como palabras repetidas.

Para los desarrolladores, la belleza de este enfoque reside en su simplicidad. "Verdaderamente no hay modificaciones en la construcción excepto por la aditamento de un token peculiar," dijo Kirchenbauer. Al cooptar una ranura no utilizada en la matriz de incrustación existente de un maniquí para que actúe como un token de máscara , la técnica convierte operaciones secuenciales en paralelas. "Cualquier maniquí de estilo de predicción de token ulterior unificado se puede adaptar de esta guisa… la implementación interna (MoE, atención en ventanas, capas SSM, etc.) no se modifica y no presenta ninguna barrera para la habilitación."

Para los equipos de ingeniería, esto significa que la habilitación se puede aplicar a modelos que ya están en producción sin escazes de recobrar tuberías.

Difundir múltiples tokens al mismo tiempo aún puede afectar la precisión de la respuesta en el momento de la inferencia. Para maximizar la velocidad de concepción sin matar la calidad del resultado, los autores introducen una logística de decodificación adaptativa indicación ConfAdapt.

ConfAdapt evalúa un puertas de confianza, como el 90 %, en cada paso. El maniquí genera un monolito de tokens, pero solo conserva los tokens que cumplen o superan este puertas de inscripción confianza. Cuando el próximo texto es enormemente predecible o estructural, la confianza del maniquí es muy inscripción. Aceptará y generará una gran cantidad de tokens a la vez, lo que ahorrará un tiempo de cálculo significativo en tokens fáciles. Luego centra sus costosos pases de un solo token en tokens más duros que requieren más esfuerzo computacional.

Poniendo a prueba la predicción de múltiples tokens

Para ver cómo se comportaba el arquetipo de entrenamiento en la praxis, los investigadores aplicaron su método a modelos populares de instrucción de peso amplio ajustados. Probaron el sólido maniquí de uso común Fogosidad-3.1-8B-Magpie y el más pequeño y eficaz Qwen3-4B-Instruct-2507, que a menudo se elige para implementaciones empresariales sensibles a los costos. Uno y otro modelos se ajustaron a MetaMathQA, un conjunto de datos de problemas matemáticos sintéticos de la escuela primaria que dependen en gran medida de las trazas de razonamiento.

Los experimentos revelaron un claro punto inmejorable entre velocidad y precisión. Utilizando la logística ConfAdapt, el maniquí Fogosidad-3.1-8B logró una apresuramiento 3 veces decano con menos del 3% de caída en la precisión en los puntos de remisión matemáticos. El maniquí Qwen3-4B logró la misma apresuramiento 3x con una caída tenuemente superior del 7% en la precisión. Las configuraciones más agresivas podrían alcanzar aceleraciones 5x, aunque conllevaban penalizaciones de precisión más pronunciadas.

La forma en que esto se traduce en tareas del mundo verdadero depende de la previsibilidad. "Como el enfoque de ConfAdapt adapta lógicamente la apresuramiento a la entropía inherente en el dominio, cuando el maniquí “sabe” exactamente lo que viene a continuación, puede emitirlo en una sola pasada." señaló, lo que lleva a una apresuramiento masiva en tareas predecibles, mientras que se utilizan más pasos para resultados inciertos.

Las aceleraciones igualmente se transfirieron a través de dominios que no se incluyeron en la escalón de entrenamiento de predicción de múltiples tokens. Esto incluía tareas adentro del mismo dominio que los datos de entrenamiento, como matemáticas y razonamiento, así como tareas abiertas como escritura creativa y resúmenes.

A pesar de esta transferencia de estudios, las empresas que implementan estos modelos para tareas especializadas no deberían necesitar completamente de ellos. "Nuestra recomendación sería ajustar/adaptar el maniquí para MTP utilizando muestras del dominio industrial peculiar," dijo Kirchenbauer. "Es probable que se logre el mejor rendimiento si la habilitación de MTP se realiza mediante indicaciones del dominio de implementación."

Al servicio de la compatibilidad y el camino por recorrer

El equipo de investigación publicó su modelos entrenados en Hugging Face y pronto se lanzará el código para su entorno MTP. Los equipos de infraestructura que integren estos modelos en vLLM o SGLang deberán tener en cuenta los cambios en la forma en que se manejan los lotes y el almacenamiento en distinción KV, pero se proxenetismo de una inversión de ingeniería única, no una carga continua. Sin retención, Kirchenbauer ve "No hay barreras claras para la integración." y confirmó que el equipo está "trabajando con algunos expertos en sistemas para identificar el camino más corto cerca de la integración."

El consejo de Kirchenbauer para los equipos que quieran probar los modelos lanzados: comience con indicaciones de cacharro, como contar o repetir una frase, para ver las ganancias de ConfAdapt en entusiasmo, luego adapte el maniquí usando muestras de su dominio de implementación específico para obtener mejores resultados. "En común, esperamos que una implementación de nuestro enfoque letanía para producción pueda simplificar el ciclo de vida de la creación e implementación de modelos agentes de desvaloración latencia." concluyó Kirchenbauer. "Si aceptablemente las técnicas de apresuramiento existentes para los modelos NTP se centran casi exclusivamente en la dialéctica y los guarniciones de inferencia, nuestro enfoque simplemente incorpora parte de la complejidad al maniquí mismo, haciéndolo en gran medida complementario al trabajo existente."

Related Posts

La nueva técnica de compactación de distinción KV reduce la memoria LLM 50 veces sin pérdida de precisión

Las aplicaciones empresariales de IA que manejan documentos grandes o tareas a derrochador plazo se enfrentan a un dificultoso cuello de botella en la memoria. A medida que el contexto…

El thriller de 2000 de Christopher Nolan es una de las mejores películas de HBO Max en este momento

Nuevo mercado Christopher Nolan es conocido por algunas grandes películas como “Inception”, “Oppenheimer”, “Dunkirk” e “Interstellar”. Por supuesto, incluso es agradecido por…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Inauguran andén pesquero de Haina Uruguayo durante un acto | AlMomento.net

Inauguran andén pesquero de Haina Uruguayo durante un acto | AlMomento.net

La nueva técnica de compactación de distinción KV reduce la memoria LLM 50 veces sin pérdida de precisión

La nueva técnica de compactación de distinción KV reduce la memoria LLM 50 veces sin pérdida de precisión

Acnur declara emergencia humanitaria en Oriente Medio

Acnur declara emergencia humanitaria en Oriente Medio

El thriller de 2000 de Christopher Nolan es una de las mejores películas de HBO Max en este momento

El thriller de 2000 de Christopher Nolan es una de las mejores películas de HBO Max en este momento

EE.UU. levanta sanciones para explotación oro en Venezuela | AlMomento.net

EE.UU. levanta sanciones para explotación oro en Venezuela | AlMomento.net

Ignorar la regla de “nunca comprar un SSD usado” para unidades empresariales es el truco definitivo para la construcción de PC

Ignorar la regla de “nunca comprar un SSD usado” para unidades empresariales es el truco definitivo para la construcción de PC