
En 2025 se ha vuelto cada vez más claro que la procreación aumentada de recuperación (RAG) no es suficiente para satisfacer los crecientes requisitos de datos para la IA agente.
RAG surgió en los últimos abriles para convertirse en el enfoque predeterminado para conectar los LLM con el conocimiento forastero. El patrón es sencillo: fragmentar documentos, incrustarlos en vectores, almacenarlos en una saco de datos y recuperar los pasajes más similares cuando lleguen consultas. Esto funciona adecuadamente para preguntas puntuales sobre documentos estáticos. Pero la inmueble descompostura cuando los agentes de IA necesitan ejecutar en múltiples sesiones, prolongar el contexto a lo dadivoso del tiempo o distinguir lo que han observado de lo que creen.
Una nueva inmueble de memoria de código campechano emplazamiento Hindsight aborda este desafío organizando la memoria de los agentes de IA en cuatro redes separadas que distinguen hechos mundiales, experiencias de agentes, resúmenes de entidades sintetizadas y creencias en progreso. El sistema, desarrollado por Vectorizar.io en colaboración con Virginia Tech y The Washington Post, logró una precisión del 91,4% en el punto de narración LongMemEval, superando a los sistemas de memoria existentes.
"RAG está en soporte trascendental y la memoria del agente está a punto de matarlo por completo." Chris Latimer, cofundador y director ejecutante de Vectorizar.iodijo a VentureBeat en una entrevista monopolio. "La veterano parte de la infraestructura RAG existente que la muchedumbre ha implementado no está funcionando al nivel que les gustaría."
Por qué RAG no puede manejar la memoria del agente a dadivoso plazo
RAG se desarrolló originalmente como un enfoque para aplaudir a los LLM entrada a información más allá de sus datos de entrenamiento sin retornar a entrenar el maniquí.
El problema central es que RAG prostitución toda la información recuperada de modo uniforme. Un hecho observado hace seis meses recibe el mismo tratamiento que una opinión formada ayer. La información que contradice declaraciones anteriores se ubica anejo a las afirmaciones originales sin ningún mecanismo para conciliarlas. El sistema no tiene forma de representar la incertidumbre, rastrear cómo evolucionaron las creencias o comprender por qué llegó a una conclusión particular.
El problema se agudiza en conversaciones de varias sesiones. Cuando un agente necesita rememorar detalles de cientos de miles de tokens repartidos en docenas de sesiones, los sistemas RAG inundan la ventana de contexto con información irrelevante o pasan por parada detalles críticos por completo. La similitud de vectores por sí sola no puede determinar qué importa para una consulta determinada cuando esa consulta requiere comprender las relaciones temporales, las cadenas causales o el contexto específico de la entidad acumulado durante semanas.
"Si tienes un enfoque único para la memoria, o estás llevando demasiado contexto que no deberías tolerar, o estás llevando muy poco contexto," Naren Ramakrishnan, profesor de informática en Virginia Tech y director del Centro Sangani de IA y investigación de datos, dijo a VentureBeat.
El cambio de RAG a la memoria agencial en retrospectiva
El cambio de RAG a la memoria de agente representa un cambio arquitectónico fundamental.
En espacio de tratar la memoria como una capa de recuperación externa que vuelca fragmentos de texto en indicaciones, Hindsight integra la memoria como un sustrato estructurado y de primera clase para el razonamiento.
La principal innovación de Hindsight es la separación del conocimiento en cuatro redes lógicas. La red mundial almacena datos objetivos sobre el entorno forastero. La red bancaria capta las propias experiencias y acciones del agente, escritas en primera persona. La red de opinión mantiene juicios subjetivos con puntuaciones de confianza que se actualizan a medida que llegan nuevas pruebas. La red de observación contiene resúmenes neutrales de preferencia de entidades sintetizados a partir de hechos subyacentes.
Esta separación aborda lo que los investigadores llaman "claridad epistémica" distinguiendo estructuralmente la evidencia de la inferencia. Cuando un agente se forma una opinión, esa creencia se almacena por separado de los hechos que la respaldan, anejo con una puntuación de confianza. A medida que llega nueva información, el sistema puede vigorizar o debilitar las opiniones existentes en espacio de tratar toda la información almacenada como igualmente cierta.
La inmueble consta de dos componentes que imitan cómo funciona la memoria humana.
TEMPR (Temporal Entity Memory Priming Retrieval) maneja la retención y recuperación de la memoria ejecutando cuatro búsquedas paralelas: similitud de vectores semánticos, coincidencia de palabras secreto a través de BM25, repaso de gráficos a través de entidades compartidas y filtrado temporal para consultas con tiempo circunscrito. El sistema fusiona resultados utilizando Reciprocal Rank Fusion y aplica un reclasificador neuronal para una precisión final.
CARA (Agentes de Razonamiento Adaptativo Coherente) maneja la consejo consciente de las preferencias integrando parámetros de disposición configurables en el razonamiento: desconfianza, literalismo y empatía. Esto aborda el razonamiento inconsistente entre sesiones. Sin condicionamiento de preferencia, los agentes producen respuestas localmente plausibles pero conjuntamente inconsistentes porque el LLM subyacente no tiene una perspectiva estable.
En retrospectiva logra la puntuación más adhesión de LongMemEval con un 91%
La retrospectiva no es sólo una investigación académica teórica; La tecnología de código campechano se evaluó en el punto de narración LongMemEval. La prueba evalúa a los agentes en conversaciones que abarcan hasta 1,5 millones de tokens en múltiples sesiones, midiendo su capacidad para rememorar información, razonar en el tiempo y prolongar perspectivas consistentes.
El punto de narración LongMemEval prueba si los agentes de IA pueden manejar escenarios de implementación del mundo verdadero. Uno de los desafíos secreto que enfrentan las empresas son los agentes que funcionan correctamente en las pruebas pero fallan en la producción. En retrospectiva, se logró una precisión del 91,4% en el punto de narración, la puntuación más adhesión registrada en la prueba.
El conjunto más amplio de resultados mostró dónde la memoria estructurada proporciona las mayores ganancias: las preguntas de varias sesiones mejoraron del 21,1% al 79,7%; el razonamiento temporal saltó del 31,6% al 79,7%; y las preguntas de puesta al día de conocimientos mejoraron del 60,3% al 84,6%.
"Significa que sus agentes podrán realizar más tareas, de modo más precisa y consistente que antiguamente." dijo Latimer. "Lo que esto le permite hacer es obtener un agente más preciso que pueda manejar procesos comerciales más críticos."
Implementación empresarial e integración de hiperescalador
Para las empresas que están considerando cómo implementar Hindsight, el camino de implementación es sencillo. El sistema se ejecuta como un único contenedor Docker y se integra mediante un contenedor LLM que funciona con cualquier maniquí de estilo.
"Es un reemplazo directo para tus llamadas API y comienzas a guatar memorias inmediatamente." dijo Latimer.
La tecnología está dirigida a empresas que ya han implementado infraestructura RAG y no están obteniendo el rendimiento que necesitan.
"La veterano parte de la infraestructura RAG existente que la muchedumbre ha implementado no funciona al nivel que les gustaría y están buscando soluciones más sólidas que puedan resolver los problemas que tienen las empresas, que generalmente es la incapacidad de recuperar la información correcta para completar una tarea o reponer una serie de preguntas." dijo Latimer.
Vectorize está trabajando con hiperescaladores para integrar la tecnología en plataformas en la cúmulo. La empresa se está asociando activamente con proveedores de la cúmulo para respaldar a sus LLM con capacidades de memoria de agentes.
Qué significa esto para las empresas
Para las empresas que lideran la apadrinamiento de la IA, Hindsight representa un camino más allá de las limitaciones de las implementaciones actuales de RAG.
Las organizaciones que han invertido en procreación aumentada de recuperación y están observando un rendimiento inconsistente de los agentes deben evaluar si la memoria estructurada puede tocar sus modos de descompostura específicos. La tecnología se adapta particularmente a aplicaciones donde los agentes deben prolongar el contexto a lo dadivoso de múltiples sesiones, manejar información contradictoria a lo dadivoso del tiempo o explicar su razonamiento.
"RAG está muerto, y creo que la memoria del agente es lo que lo matará por completo." dijo Latimer.





