
A pesar de todo su poder sobrehumano, los modelos de IA actuales adolecen de un defecto sorprendentemente humano: olvidan. Dale a un asistente de IA una conversación extensa, una tarea de razonamiento de varios pasos o un esquema que dure varios días y eventualmente perderá el hilo. Los ingenieros se refieren a este engendro como “pudrición del contexto” y silenciosamente se ha convertido en uno de los obstáculos más importantes para crear agentes de IA que puedan funcionar de forma confiable en el mundo verdadero.
Un equipo de investigación de China y Hong Kong cree favor creado una decisión al trastorno del contexto. Su nuevo artículo presenta memoria agente militar (GAM)un sistema creado para preservar información a derrochador plazo sin agobiar al maniquí. La premisa central es simple: dividir la memoria en dos roles especializados, uno que captura todo y otro que recupera exactamente las cosas correctas en el momento correcto.
Los primeros resultados son alentadores y no podrían impresionar en mejor momento. A medida que la industria va más allá de la ingeniería rápida y adopta la disciplina más amplia de la ingeniería de contexto, GAM está emergiendo precisamente en el punto de inflexión correcto.
Cuando las ventanas de contexto más grandes aún no son suficientes
En el corazón de todo maniquí de idioma egregio (LLM) se encuentra una valla rígida: una “memoria de trabajo” fija, más comúnmente conocida como ventana de contexto. Una vez que las conversaciones se alargan, la información más antigua se trunca, se resume o se descarta silenciosamente. Esta valla ha sido reconocida desde hace mucho tiempo por los investigadores de IA y, desde principios de 2023, los desarrolladores han estado trabajando para expandir las ventanas de contexto, aumentando rápidamente la cantidad de información que un maniquí puede manejar en una sola pasada.
El Mixtral 8x7B de Mistral debutó con una ventana de 32K tokens, que tiene aproximadamente de 24 a 25 palabras, o cerca de de 128 caracteres en inglés; esencialmente una pequeña cantidad de texto, como una sola oración. A esto le siguió el MPT-7B-StoryWriter-65k+ de MosaicML, que duplicó con creces esa capacidad; luego vinieron Gemini 1.5 Pro de Google y Claude 3 de Anthropic, que ofrecen ventanas masivas de 128K y 200K, ambas extensibles a un millón de tokens sin precedentes. Incluso Microsoft se unió al impulso, saltando del margen de 2K de tokens de los modelos Phi anteriores a la ventana de contexto de 128K de Phi-3.
Aumentar las ventanas de contexto puede parecer la decisión obvia, pero no lo es. Incluso los modelos con ventanas extensas de 100.000 tokens, suficientes para contener cientos de páginas de texto, todavía tienen dificultades para memorar detalles enterrados cerca del principio de una larga conversación. El contexto de escalamiento viene con su propio conjunto de problemas. A medida que las indicaciones se hacen más largas, los modelos se vuelven menos confiables para acotar e interpretar información porque la atención sobre los tokens distantes se debilita y la precisión se erosiona gradualmente.
Las entradas más largas todavía diluyen la relación señal-ruido, ya que incluir todos los detalles posibles puede hacer que las respuestas sean peores que usar un mensaje enfocado. Las indicaciones largas todavía ralentizan los modelos; más tokens de entrada conducen a una latencia de token de salida notablemente veterano, lo que crea un margen práctico sobre la cantidad de contexto que se puede utilizar antiguamente de que el rendimiento se vea afectado.
Los memorias no tienen precio.
Para la mayoría de las organizaciones, las ventanas de contexto de gran tamaño tienen una clara desventaja: son costosas. Mandar mensajes masivos a través de una API nunca es de ocasión y, correcto a que los precios aumentan directamente con los tokens de entrada, incluso una sola solicitud excesiva puede aumentar los gastos. El almacenamiento en elegancia rápido ayuda, pero no lo suficiente como para compensar el práctica de sobrecargar rutinariamente los modelos con contexto innecesario. Y esa es la tensión central del problema: la memoria es esencial para hacer que la IA sea más poderosa.
A medida que las ventanas de contexto se extienden a cientos de miles o millones de tokens, los gastos financieros aumentan con la misma presteza. Medrar el contexto es un desafío tanto técnico como financiero, y necesitar de ventanas cada vez más grandes se convierte rápidamente en una logística insostenible para la memoria a derrochador plazo.
Correcciones como el síntesis y la engendramiento aumentada de recuperación (RAG) siquiera son soluciones mágicas. Los resúmenes inevitablemente eliminan detalles sutiles pero importantes, y el RAG tradicional, si acertadamente es robusto en documentos estáticos, tiende a frustrarse cuando la información se extiende a lo derrochador de múltiples sesiones o evoluciona con el tiempo. Incluso las variantes más nuevas, como RAG agente y RAG 2.0 (que funcionan mejor en la dirección del proceso de recuperación), todavía heredan el mismo defecto fundamental de tratar la recuperación como la decisión, en lado de tratar la memoria misma como el problema central.
Los compiladores resolvieron este problema hace décadas.
Si la memoria es el cierto cuello de botella y la recuperación no puede solucionarlo, entonces la brecha necesita un tipo diferente de decisión. Esa es la postura detrás de GAM. En lado de pretender que la recuperación es memoria, GAM mantiene un registro completo y sin pérdidas y lo superpone con una recuperación inteligente bajo demanda, resurgiendo los detalles exactos que un agente necesita incluso cuando las conversaciones cambian y evolucionan. Una forma útil de comprender GAM es a través de una idea habitual de la ingeniería de software: la compilación calibrado a tiempo (JIT). En lado de precalcular una memoria rígida y muy comprimida, GAM mantiene las cosas livianas y ajustadas al juntar un conjunto exiguo de señales, anejo con un archivo completo e inmaculado de la historia en bruto. Luego, cuando llega una solicitud, “compila” un contexto personalizado sobre la marcha.
Este enfoque JIT está integrado en la edificio dual de GAM, lo que permite a la IA transmitir contexto a lo derrochador de largas conversaciones sin comprimir demasiado ni adivinar demasiado pronto lo que importa. El resultado es la información correcta, entregada exactamente en el momento adecuado.
Internamente de GAM: un sistema de dos agentes creado para una memoria duradera
GAM paseo en torno a la simple idea de separar el acto de memorar del rememoración, lo que implica acertadamente dos componentes: el ‘memorizador’ y el ‘investigador’.
El memorizador: recuperación total sin sobrecarga
El memorizador captura cada intercambio en su totalidad, convirtiendo silenciosamente cada interacción en una nota concisa y al mismo tiempo conserva la sesión completa y decorada en una tienda de páginas con capacidad de búsqueda. No comprime agresivamente ni adivina lo que es importante. En cambio, organiza las interacciones en páginas estructuradas, agrega metadatos para una recuperación capaz y genera resúmenes livianos opcionales para un escaneo rápido. Lo más importante es que se conserve cada detalle y no se deseche nulo.
El investigador: un motor de recuperación profunda
Cuando el agente necesita comportarse, el investigador toma el mando para planificar una logística de búsqueda, combinando incrustaciones con métodos de palabras secreto como BM25, navegando a través de ID de páginas y uniendo las piezas. Realiza búsquedas en capas en la tienda de páginas, combinando recuperación de vectores, concordancia de palabras secreto y búsquedas directas. Evalúa los hallazgos, identifica lagunas y continúa buscando hasta que tiene evidencia suficiente para producir una respuesta confiable, de forma muy similar a un analista humano que revisa notas antiguas y documentos primarios. Itera, rastreo, integra y reflexiona hasta crear un mensaje libre y específico para la tarea.
El poder de GAM proviene de esta canalización de memoria JIT, que reúne un contexto rico y específico de tareas bajo demanda en lado de necesitar de resúmenes frágiles y precalculados. Su principal innovación es simple pero poderosa, ya que conserva toda la información intacta y hace que cada detalle sea recuperable.
Los estudios de separación respaldan este enfoque: la memoria tradicional error por sí sola y la recuperación ingenua no es suficiente. Es la combinación de un archivo completo con un motor de investigación activo e iterativo que permite a GAM sacar a la luz detalles que otros sistemas dejan detrás.
Superando el rendimiento de RAG y de los modelos de contexto derrochador
Para probar GAM, los investigadores lo compararon con tuberías y modelos RAG unificado con ventanas contextuales ampliadas, como GPT-4o-mini y Qwen2.5-14B. Evaluaron GAM utilizando cuatro puntos de relato principales de contexto prolongado y uso intensivo de memoria, cada uno predilecto para probar un aspecto diferente de las capacidades del sistema:
-
LoCoMo Mide la capacidad de un agente para amparar y recuperar información a lo derrochador de conversaciones largas de varias sesiones, que abarcan tareas de un solo brinco, de múltiples saltos, de razonamiento temporal y de dominio destapado.
-
hotpotqaun punto de relato de control de calidad de múltiples saltos ampliamente utilizado creado a partir de Wikipedia, se adaptó utilizando la interpretación de prueba de estrés de memoria de MemAgent, que mezcla documentos relevantes con distractores para crear contextos de tokens de 56K, 224K y 448K, ideal para probar qué tan acertadamente GAM maneja entradas ruidosas y dispersas.
-
GOBERNANTE evalúa la precisión de la recuperación, el seguimiento del estado de múltiples saltos, la agregación en secuencias largas y el rendimiento del control de calidad en un contexto de 128.000 tokens para investigar más a fondo el razonamiento a derrochador plazo.
-
NarrativaQA es un punto de relato donde cada pregunta debe responderse utilizando el texto completo de un ejemplar o banderín de película; Los investigadores tomaron muestras de 300 ejemplos con un tamaño de contexto promedio de 87.000 tokens.
En conjunto, estos conjuntos de datos y puntos de relato permitieron al equipo evaluar tanto la capacidad de GAM para preservar información histórica detallada como su fuerza para respaldar tareas complejas de razonamiento posteriores.
GAM obtuvo la superioridad en todos los puntos de relato. Su veterano trofeo fue en RULER, que compara el seguimiento de estados de derrochador magnitud. Notablemente:
-
GAM superó el 90% de precisión.
-
RAG colapsó porque se perdieron detalles secreto en los resúmenes.
-
Los modelos de contexto derrochador fallaron a medida que la información más antigua se “desvaneció” incluso cuando técnicamente estaba presente.
Claramente, ventanas de contexto más grandes no son la respuesta. GAM funciona porque recupera tokens con precisión en lado de acumularlos.
GAM, ingeniería de contexto y enfoques competitivos
El contexto mal estructurado, y no las limitaciones del maniquí, es a menudo la verdadera razón por la que fallan los agentes de IA. GAM aborda esto garantizando que no se pierda nulo permanentemente y que siempre se pueda recuperar la información correcta, incluso en etapas más avanzadas. El surgimiento de la técnica coincide con el cambio contemporáneo y más amplio de la IA en dirección a la ingeniería de contexto, o la praxis de dar forma a todo lo que ve un maniquí de IA: sus instrucciones, historial, documentos recuperados, herramientas, preferencias y formatos de salida.
La ingeniería de contexto ha eclipsado rápidamente en importancia a la ingeniería inmediata, aunque otros grupos de investigación están abordando el problema de la memoria desde diferentes ángulos. Anthropic explora estados contextuales seleccionados y en desarrollo. DeepSeek está experimentando con el almacenamiento de memoria en forma de imágenes. Otro categoría de investigadores chinos ha propuesto “sistemas operativos semánticos” construidos en torno a la memoria adaptativa de por vida.
Sin incautación, la filosofía de GAM es distinta: evitar pérdidas y recuperar con inteligencia. En lado de adivinar qué importará más delante, guardamano todo y utiliza un motor de investigación dedicado para encontrar las piezas relevantes en tiempo de ejecución. Para los agentes que manejan proyectos de varios días, flujos de trabajo continuos o relaciones a derrochador plazo, esa confiabilidad puede resultar esencial.
Por qué GAM es importante a derrochador plazo
Así como unir más computación no produce automáticamente mejores algoritmos, expandir las ventanas de contexto por sí sola no resolverá los problemas de memoria a derrochador plazo de la IA. Para obtener avances significativos es necesario repensar el sistema subyacente, y GAM adopta ese enfoque. En lado de necesitar de modelos cada vez más grandes, ventanas de contexto masivas o indicaciones infinitamente refinadas, prostitución la memoria como un desafío de ingeniería, uno que se beneficia de la estructura en lado de la fuerza bruta.
A medida que los agentes de IA pasan de demostraciones inteligentes a herramientas de labor crítica, su capacidad para memorar historias largas se vuelve crucial para desarrollar sistemas inteligentes y confiables. Las empresas necesitan agentes de IA que puedan rastrear las tareas en desarrollo, amparar la continuidad y memorar interacciones pasadas con precisión y exactitud. GAM ofrece un camino práctico en dirección a ese futuro, señalando cuál puede ser la próxima gran frontera en IA: no modelos más grandes, sino sistemas de memoria más inteligentes y las arquitecturas contextuales que los hacen posibles.





