La ‘memoria de observación’ reduce 10 veces los costos de los agentes de IA y supera a RAG en puntos de remisión de contexto prolongado

RAG no siempre es lo suficientemente rápido o inteligente para los flujos de trabajo de IA agentes modernos. A medida que los equipos pasan de chatbots de corta duración a agentes de larga duración y con muchas herramientas integradas en los sistemas de producción, esas limitaciones se vuelven más difíciles de solucionar.

En respuesta, los equipos están experimentando con arquitecturas de memoria alternativas, a veces llamadas memoria contextual o memoria agente, que priorizan la persistencia y la estabilidad sobre la recuperación dinámica.

Una de las implementaciones más recientes de este enfoque es "memoria observacional," una tecnología de código franco desarrollada por Mastra, que fue fundada por los ingenieros que anteriormente construyeron y vendieron el Entorno de Gatsby para Netlify.

A diferencia de los sistemas RAG que recuperan el contexto dinámicamente, la memoria observacional utiliza dos agentes en segundo plano (Observador y Reflector) para comprimir el historial de conversaciones en un registro de observaciones fechado. Las observaciones comprimidas permanecen en contexto, eliminando por completo la recuperación. Para contenido de texto, el sistema logra una compresión de 3 a 6 veces. Para cargas de trabajo de agentes con muchas herramientas que generan grandes resultados, las relaciones de compresión alcanzan entre 5 y 40 veces.

La desventaja es que la memoria observacional prioriza lo que el agente ya ha pasado y decidido sobre la búsqueda en un corpus extranjero más amplio, lo que la hace menos adecuada para el descubrimiento de conocimientos abiertos o casos de uso de recuperación con mucho cumplimiento.

El sistema obtuvo una puntuación del 94,87 % en LongMemEval utilizando GPT-5-mini, manteniendo al mismo tiempo una ventana de contexto completamente estable y almacenable en elegancia. En el maniquí GPT-4o tipificado, la memoria de observación obtuvo una puntuación del 84,23% en comparación con la implementación RAG de Mastra del 80,05%.

"Tiene esta gran característica de ser más simple y más potente, como si tuviera una mejor puntuación en los puntos de remisión." dijo a VentureBeat Sam Bhagwat, cofundador y director ejecutante de Mastra.

Cómo funciona: dos agentes comprimen la historia en observaciones

La construcción es más simple que la de los sistemas de memoria tradicionales pero ofrece mejores resultados.

La memoria observacional divide la ventana de contexto en dos bloques. El primero contiene observaciones: notas comprimidas y fechadas extraídas de conversaciones anteriores. El segundo contiene el historial de mensajes sin procesar de la sesión flagrante.

Dos agentes en segundo plano gestionan el proceso de compresión. Cuando los mensajes no observados alcanzan los 30.000 tokens (configurables), el agente Observer los comprime en nuevas observaciones y las agrega al primer bando. Los mensajes originales se eliminan. Cuando las observaciones alcanzan los 40.000 tokens (todavía configurables), el agente Reflector reestructura y condensa el registro de observaciones, combinando fundamentos relacionados y eliminando información reemplazada.

"La forma en que se comprimen estos mensajes a lo liberal del tiempo es que en sinceridad simplemente se reciben mensajes y luego un agente dice: “Está perfectamente, entonces, ¿cuáles son las cosas secreto que hay que memorar de este conjunto de mensajes?”" dijo Bhagwat. "Lo comprimes y luego obtienes otros 30.000 tokens y los comprimes."

El formato está basado en texto, no en objetos estructurados. No se requieren bases de datos vectoriales ni bases de datos de gráficos.

Las ventanas de contexto estable reducen los costos de los tokens hasta 10 veces

La bienes de la memoria observacional proviene del almacenamiento en elegancia rápido. Anthropic, OpenAI y otros proveedores reducen los costos de los tokens entre 4 y 10 veces para las solicitudes almacenadas en elegancia en comparación con las que no lo están. La mayoría de los sistemas de memoria no pueden exprimir esto porque cambian el mensaje en cada turno inyectando contexto recuperado dinámicamente, lo que invalida el elegancia. Para los equipos de producción, esa inestabilidad se traduce directamente en curvas de costos impredecibles y cargas de trabajo de agentes más difíciles de presupuestar.

La memoria observacional mantiene el contexto estable. El bando de observación solo se agrega hasta que se ejecuta la advertencia, lo que significa que el sistema indica y las observaciones existentes forman un prefijo consistente que se puede acumular en elegancia durante muchos turnos. Los mensajes se siguen añadiendo al bando de historial sin procesar hasta que se alcanza el acceso de 30.000 tokens. Cada turno mencionado a ese es un tiento de elegancia completo.

Cuando se ejecuta la observación, los mensajes se reemplazan con nuevas observaciones agregadas al bando de observación existente. El prefijo de observación se mantiene constante, por lo que el sistema aún obtiene un tiento de elegancia parcial. Sólo durante la advertencia (que se ejecuta con poca frecuencia) se invalida todo el elegancia.

El tamaño promedio de la ventana de contexto para la ejecución comparativa de LongMemEval de Mastra fue de en torno a de 30.000 tokens, mucho más pequeño de lo que requeriría el historial de conversación completo.

¿Por qué esto difiere de la compactación tradicional?

La mayoría de los agentes de codificación utilizan la compactación para tramitar un contexto extenso. La compactación permite que la ventana de contexto se llene por completo y luego comprime todo el historial en un prontuario cuando está a punto de desbordarse. El agente continúa, la ventana se llena nuevamente y el proceso se repite.

La compactación produce resúmenes de estilo documentación. Capta la esencia de lo que sucedió pero pierde eventos, decisiones y detalles específicos. La compresión se produce en lotes grandes, lo que hace que cada pasada sea computacionalmente costosa. Esto funciona para la legibilidad humana, pero a menudo elimina las decisiones específicas y las interacciones de herramientas que los agentes necesitan para proceder de forma consistente a lo liberal del tiempo.

El Observer, por otro costado, se ejecuta con más frecuencia y procesa fragmentos más pequeños. En emplazamiento de resumir la conversación, produce un registro de decisiones basado en eventos: una cinta estructurada de observaciones fechadas y priorizadas sobre lo que sucedió específicamente. Cada ciclo de observación maneja menos contexto y lo comprime de forma más capaz.

El registro nunca se resume en un blob. Incluso durante la advertencia, el Reflector reorganiza y condensa las observaciones para encontrar conexiones y eliminar datos redundantes. Pero la estructura basada en eventos persiste. El resultado se lee como un registro de decisiones y acciones, no como documentación.

Casos de uso empresarial: conversaciones de agentes de larga duración

Los clientes de Mastra abarcan varias categorías. Algunos crean chatbots en aplicaciones para plataformas CMS como Sanity o Contentful. Otros crean sistemas AI SRE que ayudan a los equipos de ingeniería a clasificar las alertas. Los agentes de procesamiento de documentos manejan el papeleo para las empresas tradicionales que avanzan en dirección a la automatización.

Lo que comparten estos casos de uso es la aprieto de conversaciones prolongadas que mantengan el contexto durante semanas o meses. Un agente integrado en un sistema de administración de contenidos debe memorar que hace tres semanas el afortunado solicitó un formato de documentación específico. Un agente de la SRE necesita realizar un seguimiento de qué alertas se investigaron y qué decisiones se tomaron.

"Uno de los grandes objetivos para 2025 y 2026 ha sido crear un agente interiormente de su aplicación web." Bhagwat dijo sobre las empresas B2B SaaS. "Ese agente debe poder memorar que hace como tres semanas me preguntaste sobre esto o dijiste que querías un documentación sobre este tipo de contenido o vistas segmentadas por esta métrica."

En esos escenarios, la memoria deja de ser una optimización y se convierte en un requisito del producto: los usuarios notan inmediatamente cuando los agentes olvidan decisiones o preferencias anteriores.

La memoria de observación mantiene presentes y accesibles meses de historial de conversaciones. El agente puede reponer recordando el contexto completo, sin aprieto de que el afortunado vuelva a explicar preferencias o decisiones previas.

El sistema se envió como parte de Mastra 1.0 y ya está acondicionado. El equipo lanzó complementos esta semana para LangChain, el SDK de IA de Vercel y otros marcos, lo que permite a los desarrolladores utilizar la memoria de observación fuera del ecosistema de Mastra.

Qué significa para los sistemas de IA de producción

La memoria de observación ofrece un enfoque arquitectónico diferente al de la pulvínulo de datos vectorial y las canalizaciones RAG que dominan las implementaciones actuales. La construcción más simple (basada en texto, sin bases de datos especializadas) facilita la depuración y el mantenimiento. La ventana de contexto estable permite un almacenamiento en elegancia agresivo que reduce los costos. El desempeño de remisión sugiere que el enfoque puede funcionar a escalera.

Para los equipos empresariales que evalúan enfoques de memoria, las preguntas secreto son:

¿Cuánto contexto necesitan suministrar sus agentes entre sesiones?
¿Cuál es su tolerancia a la compresión con pérdida frente a la búsqueda de corpus completo?
¿Necesita la recuperación dinámica que proporciona RAG o funcionaría mejor un contexto estable?
¿Sus agentes utilizan muchas herramientas y generan grandes cantidades de resultados que necesitan compresión?

Las respuestas determinan si la memoria observacional se adapta a su caso de uso. Bhagwat posiciona la memoria como una de las principales primitivas necesarias para los agentes de suspensión rendimiento, yuxtapuesto con el uso de herramientas, la orquestación del flujo de trabajo, la observabilidad y las barreras de seguridad. Para los agentes empresariales integrados en los productos, olvidar el contexto entre sesiones es inaceptable. Los usuarios esperan que los agentes recuerden sus preferencias, decisiones anteriores y trabajo en curso.

"Lo más difícil para los agentes de team building es la producción, que puede sobrellevar tiempo," dijo Bhagwat. "La memoria es una parte verdaderamente importante en eso, porque es discordante si usas cualquier tipo de utensilio agente y le dices poco y luego simplemente lo olvida."

A medida que los agentes pasan de los experimentos a los sistemas integrados de registro, la forma en que los equipos diseñan la memoria puede importar tanto como el maniquí que elijan.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

La ‘memoria de observación’ reduce 10 veces los costos de los agentes de IA y supera a RAG en puntos de remisión de contexto prolongado

Cómo funciona: dos agentes comprimen la historia en observaciones

Las ventanas de contexto estable reducen los costos de los tokens hasta 10 veces

¿Por qué esto difiere de la compactación tradicional?

Casos de uso empresarial: conversaciones de agentes de larga duración

Qué significa para los sistemas de IA de producción

ztevenreal

Related Posts

Posteriormente de todo, es posible que Google Pixel 11 Pro no se vea muy diferente

DeepRare supera a los médicos en un estudio de dictamen de enfermedades raras

Leave a Reply Cancel reply

You Missed

Posteriormente de todo, es posible que Google Pixel 11 Pro no se vea muy diferente

El peso de los impuestos en las telecomunicaciones | AlMomento.net

Combustibles mantendrán los mismos precios en Dominicana | AlMomento.net

DeepRare supera a los médicos en un estudio de dictamen de enfermedades raras

Cuba anuncia retirada de médicos en Jamaica tras cesar cooperación

Pedernales y Santo Domingo concentran casi 40% de la inversión pública en enero