El nuevo método ‘Test-Time Training’ permite a la IA seguir aprendiendo sin aumentar los costos de inferencia

Un nuevo estudio realizado por investigadores de la Universidad de Stanford y Nvidia propone una forma para que los modelos de IA sigan aprendiendo a posteriori de la implementación, sin aumentar los costos de inferencia. Para los agentes empresariales que tienen que digerir documentos, tickets y registros extensos, esta es una puesta por obtener “memoria larga” sin prestar atención a los costos que crecen con la largura del contexto.

El enfoque, denominado “Capacitación durante el tiempo de prueba de un extremo a otro(TTT-E2E), reformula el modelado del habla como un problema de formación continuo: en oficio de memorizar hechos durante el entrenamiento previo, los modelos aprenden a adaptarse en tiempo existente a medida que procesan nueva información.

El resultado es un Transformer que puede igualar la precisión de contexto liberal de los modelos de atención total mientras se ejecuta con una eficiencia cercana a RNN, un avance potencial para cargas de trabajo empresariales donde la largura del contexto choca con el costo.

El consistencia entre precisión y eficiencia

Para los desarrolladores que crean sistemas de inteligencia químico para tareas de documentos extensos, la sufragio de la edificio del maniquí a menudo implica un doloroso consistencia entre precisión y eficiencia.

Por un banda están los Transformers con total atención propia, actualmente el típico de oro en cuanto a precisión. Están diseñados para escanear las claves y títulos de todos los tokens anteriores para cada nuevo token generado, proporcionándoles una recuperación sin pérdidas. Sin requisa, esta precisión tiene un costo elevado: el costo computacional por token crece significativamente con la largura del contexto.

Por otro banda, están los modelos de secuencia de tiempo derecho, que mantienen constantes los costos de inferencia pero luchan por retener información en contextos muy prolongados.

Otros enfoques intentan dividir la diferencia (atención de ventana deslizante, híbridos que mezclan atención con recurrencia y otros trucos de eficiencia), pero todavía tienden a no obtener una atención total en el modelado de habla duro.

La puesta de los investigadores es que el ingrediente que desatiendo es la compresión: en oficio de intentar rememorar cada token exactamente, los modelos deberían destilar lo que importa en un estado compacto.

Entrenamiento en el momento del examen

La principal innovación del artículo es la aplicación de Test-Time Training (TTT) al modelado del habla. Esto transforma el maniquí de una colchoneta de datos estática a un estudiante flexible.

En la implementación típico de IA, los modelos se entrenan para minimizar las pérdidas y luego se implementan como artefactos congelados. Si intenta hacer que un maniquí arrobado aprenda durante la implementación, normalmente tendrá un rendimiento deficiente porque nunca fue entrenado para actualizarse de modo válido.

Los investigadores resuelven esto pasando del preentrenamiento típico (enseñar hechos al maniquí) al metaaprendizaje (enseñar al maniquí cómo asimilar). El objetivo es optimizar el maniquí. "inicialización" para que pueda absorber nueva información rápidamente cuando entre en funcionamiento.

El proceso implica disimular el formación en tiempo de inferencia durante la escalón de entrenamiento:

Caracolillo interno (asimilar): Durante el entrenamiento, el maniquí proxenetismo el texto como una secuencia y realiza pequeñas actualizaciones temporales mientras predice el ulterior token, simulando cómo se adaptaría en la inferencia.
Caracolillo exógeno (enseñarle a asimilar): Luego, el sistema actualiza la inicialización del maniquí para que la ulterior ronda de aclimatación de transmisión sea más rápida y precisa.

Si acertadamente la idea de que un maniquí cambie sus pesos durante la implementación puede parecer arriesgada para los líderes empresariales centrados en la confiabilidad, el coautor Yu Sun sostiene que es matemáticamente más seguro de lo que parece.

“Deberías pensar en el maniquí como un RNN con un enorme estado oculto”, dice Sun. Señala que si una empresa se siente segura al implementar Transformers o RNN típico, el perfil de estabilidad de TTT es comparable.

Cimentación de memoria dual

Para implementar TTT-E2E, los investigadores modificaron la edificio típico de Transformer para permitir este nuevo ideal de formación, creando una orden que separa el manejo financiero del contexto a corto plazo de las actualizaciones selectivas de la memoria a liberal plazo.

tEl maniquí utiliza atención de ventana deslizante en oficio de atención total. Esto actúa como el maniquí. "memoria de trabajo," mirando en torno a a espaldas solo a una ventana fija de tokens recientes para manejar la sintaxis inmediata y las referencias locales. Esto garantiza que el costo de procesar un nuevo token permanezca constante en oficio de crecer a medida que se expande el contexto.
El maniquí emplea “actualizaciones de peso específicas”. Mientras que los modelos típico tienen pesos completamente congelados durante el uso, TTT-E2E designa secciones específicas (capas de perceptrón multicapa en el 25% final de los bloques del maniquí) para que sean mutables.
La edificio utiliza un “almacenamiento de doble vía” para evitar que el maniquí olvide su formación militar mientras aprende un nuevo documento. Cada pedrusco actualizable contiene dos componentes MLP: una capa estática que contiene conocimiento militar previamente entrenado y una capa dinámica que se actualiza en tiempo existente para juntar el contexto del documento coetáneo.

La innovación radica en cómo el maniquí maneja la información que cae fuera de la ventana deslizante. En un maniquí de ventana deslizante típico, una vez que una ficha se pierde de presencia, se olvida. TTT-E2E evita esto mediante compresión. A medida que la ventana se mueve, el maniquí utiliza la predicción del ulterior token para "comprimir" la información que pasa directamente a los pesos de las capas dinámicas de MLP. Esto consolida la esencia y los hechos de las partes anteriores del documento en la estructura del maniquí, sirviendo como una memoria a liberal plazo.

TTT-E2E en movimiento

El resultado principal: TTT-E2E continúa mejorando a medida que crece la largura del contexto (igualando o superando la atención total), mientras que las líneas de colchoneta eficientes se estabilizan a posteriori de ~32 000 tokens.

Para validar su enfoque, los investigadores entrenaron modelos que oscilaban entre 125 millones y 3 mil millones de parámetros. Emplearon un proceso de capacitación de dos etapas: capacitación previa en contextos de 8.000 tokens y ajuste en contextos de 128.000 tokens. Estos modelos se probaron con líneas de colchoneta sólidas, incluidos Transformers con atención total, Transformers con atención de ventana deslizante (SWA), modelos híbridos (Mamba 2 y Gated DeltaNet) y TTT-KVB (una forma previo de entrenamiento en tiempo de prueba).

Los resultados destacan un avance significativo en el escalamiento. El prueba más crítico probó el rendimiento cuando el documento de entrada creció de 8.000 a 128.000 tokens. El Full Attention Transformer, el típico de oro, continuó mejorando su rendimiento (pequeño pérdida) a medida que crecía el contexto. Por el contrario, las líneas de colchoneta eficientes como Mamba 2, Gated DeltaNet y SWA alcanzaron un techo, y su rendimiento se degradó o se estancó a posteriori de 32.000 tokens.

El nuevo método TTT-E2E se amplió con éxito con la largura del contexto, imitando el comportamiento de Atención Plena. En los experimentos que utilizaron modelos de parámetros 3B, TTT-E2E en efectividad mantuvo una pequeño perplejidad (mejor rendimiento) que Atención total en toda la ventana de contexto.

Fundamentalmente, este rendimiento no se produjo a costa de la velocidad. En cuanto a la latencia de inferencia, TTT-E2E igualó la eficiencia de los RNN. Con una largura de contexto de 128.000 tokens, TTT-E2E fue 2,7 veces más rápido que el Full-Attention Transformer en hardware Nvidia H100.

Fundamentalmente para la apadrinamiento, Sun señala que los modelos TTT se pueden implementar hoy en día para realizar inferencias en la infraestructura típico de Transformer para obtener estas aceleraciones. Sin requisa, advierte que el banda del entrenamiento de la ecuación (específicamente el rizo extranjero) es actualmente más engorroso y más paulatino que los métodos típico, lo que representa un obstáculo que aún necesita optimización de ingeniería.

Los beneficios se vuelven aún más drásticos a medida que aumentan los datos. Sun sostiene que la superioridad debería ampliarse aún más en contextos de millones de tokens, aunque esas cifras son proyecciones en oficio de los despliegues de narración actuales.

Sin requisa, el enfoque tiene limitaciones específicas basadas en su filosofía de diseño. Los investigadores realizaron un "Jeringuilla en un pajar" prueba, que requiere que el maniquí recupere una información específica y aislada (como un código de ataque) oculta en un gran pedrusco de texto. En esta evaluación, Atención Plena superó dramáticamente a todos los demás métodos, incluido TTT-E2E.

Esto se debe a que Full Attention se cimiento en un distinción que permite recuperar detalles específicos casi sin pérdidas, mientras que TTT-E2E se cimiento en la compresión. La compresión captura perfectamente la intuición y la información central, pero puede perder detalles específicos y aleatorios que no se ajustan a los patrones aprendidos.

Esta distinción tiene implicaciones importantes para los canales de datos empresariales, específicamente RAG. Sun sugiere que TTT no hará que RAG quede obsoleto, pero lo redefinirá. Él compara TTT con "actualizando el cerebro humano" con conocimientos generales, mientras que RAG seguirá siendo una utensilio necesaria para la precisión, "similar a cómo los humanos todavía necesitan escribir cosas en un bloc de notas." Para los equipos empresariales, la conclusión es que TTT reduce la frecuencia con la que se necesita la recuperación, pero no elimina la pobreza de una memoria externa exacta.

Si acertadamente la técnica se demostró en la edificio Transformer, los investigadores señalan que “en principio, TTT se puede aplicar a cualquier edificio básica” que permita una separación de los componentes de la memoria a corto y liberal plazo.

“Creemos que estas dos clases de memoria seguirán complementándose," concluyeron los investigadores.

De cara al futuro, Sun predice un cambio de ideal en el que la forma principal de memoria de IA será muy comprimida en oficio de exacta. Si acertadamente los modelos conservarán un "bastante" ventana de recuperación perfecta de más o menos de 128.000 tokens, cree que las arquitecturas TTT eventualmente desbloquearán una "memoria comprimida de miles de millones de tokens," fundamentalmente cambiando la forma en que los agentes empresariales equilibran el regalo, el costo y la duración del contexto.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

El nuevo método ‘Test-Time Training’ permite a la IA seguir aprendiendo sin aumentar los costos de inferencia

El consistencia entre precisión y eficiencia

Entrenamiento en el momento del examen

Cimentación de memoria dual

TTT-E2E en movimiento

ztevenreal

Related Posts

Una IA metaagente provocó un incidente de seguridad al comportarse sin permiso

Dos veteranos de Palantir acaban de salir del sigilo con 30 millones de dólares y un sello de aprobación de Sequoia.

You Missed

Museo de Arte Nuevo de SD expone obra de martiniqués | AlMomento.net

Carlos Sánchez apetito la primera estatuilla de Premios Soberano 2026

Una IA metaagente provocó un incidente de seguridad al comportarse sin permiso

emoción y orgullo por su rol en los Premios Soberano 2026

Así se vivió la ruedo roja de los Premios Soberano 2026

el muchacho del sector Don Bosco que se estableció como un soberano de la comunicación