
Directivo senior de productos de IA de Google Shubham Saboo ha convertido uno de los problemas más espinosos en el diseño de agentes en un control de ingeniería de código extenso: la memoria persistente.
Esta semana publicó un artículo de código extenso.Agente Always On Memory” en el Github oficial de Google Cloud Platform página bajo una deshonestidad MIT permisiva, que permite el uso comercial.
Fue construido con el kit de crecimiento de agentes de Google, o ADK, presentado la primavera pasada en 2025, y Gemini 3.1 Flash-Lite, un maniquí de bajo costo que Google presentó el 3 de marzo de 2026 como su maniquí de la serie Gemini 3 más rápido y rentable.
El tesina sirve como una implementación de narración maña para poco que muchos equipos de IA quieren pero pocos han implementado de forma limpia: un sistema de agente que pueda ingerir información continuamente, consolidarla en segundo plano y recuperarla más tarde sin pender de una almohadilla de datos vectorial convencional.
Para los desarrolladores empresariales, el extensión importa menos como extensión de producto que como una señal sobre en torno a dónde se dirige la infraestructura del agente.
El repositorio ofrece una visión de autonomía de larga duración que es cada vez más atractiva para sistemas de soporte, asistentes de investigación, copilotos internos y automatización del flujo de trabajo. Asimismo pone de relieve las cuestiones de gobernanza tan pronto como la memoria deja de estar ligada a sesiones.
Lo que parece hacer el repositorio y lo que no afirma claramente
El repositorio igualmente parece utilizar una inmueble interna de múltiples agentes, con componentes especializados que manejan la ingesta, la consolidación y las consultas.
Pero los materiales proporcionados no establecen claramente una afirmación más amplia de que se comercio de un ámbito de memoria compartido para múltiples agentes independientes.
Esa distinción importa. ADK como ámbito admite sistemas multiagente, pero este repositorio específico se describe mejor como un agente de memoria siempre activo, o capa de memoria, construido con subagentes especializados y almacenamiento persistente.
Incluso en este nivel más circunscrito, aborda un problema central de infraestructura en el que muchos equipos están trabajando activamente.
La inmueble favorece la simplicidad frente a una pila de recuperación tradicional.
Según el repositorio, el agente se ejecuta continuamente, ingiere archivos o entradas de API, almacena memorias estructuradas en SQLite y realiza una consolidación de memoria programada cada 30 minutos de forma predeterminada.
Se incluyen una API HTTP circunscrito y un panel Streamlit, y el sistema admite la ingesta de texto, imágenes, audio, video y PDF. El repositorio enmarca el diseño con una afirmación intencionadamente provocativa: “Sin almohadilla de datos vectorial. Sin incrustaciones. Sólo un LLM que lee, piensa y escribe memoria estructurada”.
Es probable que esa alternativa de diseño atraiga la atención de los desarrolladores que gestionan los costos y la complejidad operativa. Las pilas de recuperación tradicionales a menudo requieren procesos de integración, almacenamiento de vectores, razonamiento de indexación y trabajo de sincronización separados.
En cambio, el ejemplo de Saboo se apoya en el maniquí para organizar y poner al día la memoria directamente. En la maña, eso puede simplificar los prototipos y someter la expansión de la infraestructura, especialmente para agentes de memoria más pequeños o medianos. Asimismo traslada la cuestión del rendimiento de la sobrecarga de búsqueda de vectores a la latencia del maniquí, la razonamiento de compactación de la memoria y la estabilidad del comportamiento a grande plazo.
Flash-Lite le da al maniquí siempre activo cierta razonamiento económica
Ahí es donde Gemini 3.1 Flash-Lite entra en la historia.
Google dice que el maniquí está diseñado para cargas de trabajo de desarrolladores de gran comba a escalera y tiene un precio de 0,25 dólares por millón de tokens de entrada y 1,50 dólares por 1 millón de tokens de salida.
La compañía igualmente dice que Flash-Lite es 2,5 veces más rápido que Gemini 2.5 Flash en tiempo hasta el primer token y ofrece un aumento del 45% en la velocidad de salida manteniendo una calidad similar o mejor.
En los puntos de narración publicados por Google, el maniquí registra una puntuación Elo de 1432 en Arena.ai, 86,9% en GPQA Diamond y 76,8% en MMMU Pro. Google posiciona esas características como adecuadas para tareas de inscripción frecuencia como traducción, moderación, procreación de UI y simulación.
Esos números ayudan a explicar por qué Flash-Lite está emparejado con un agente de memoria de fondo. Un servicio 24 horas al día, 7 días a la semana que periódicamente relee, consolida y sirve la memoria necesita una latencia predecible y un costo de inferencia lo suficientemente bajo para evitar que “siempre activo” sea prohibitivamente costoso.
La documentación ADK de Google refuerza la historia más amplia. El ámbito se presenta como independiente del maniquí y de la implementación, con soporte para agentes de flujo de trabajo, sistemas multiagente, herramientas, objetivos de evaluación e implementación, incluidos Cloud Run y Vertex AI Agent Engine. Esa combinación hace que el agente de memoria se sienta menos como una demostración única y más como un punto de narración para una logística más amplia de tiempo de ejecución del agente.
El debate empresarial excursión en torno a la gobernanza, no sólo a la capacidad
La reacción del divulgado muestra por qué la asimilación empresarial de la memoria persistente no dependerá nada más de la velocidad o del precio simbólico.
Varias respuestas sobre X resaltaron exactamente las preocupaciones que probablemente plantearán los arquitectos empresariales. franco abe calificó a Google ADK y la consolidación de memoria 24 horas al día, 7 días a la semana como “saltos brillantes para la autonomía continua del agente”, pero advirtió que un agente “soñando” y polinizando memorias en segundo plano sin límites deterministas se convierte en “una pesadilla de cumplimiento”.
ELED hizo un comentario relacionado, argumentando que el costo principal de los agentes siempre activos no son los tokens, sino “la deriva y los bucles”.
Esas críticas van directamente a la carga operativa de los sistemas persistentes: ¿quién puede escribir la memoria, qué se fusiona, cómo funciona la retención, cuándo se eliminan los memorias y cómo los equipos auditan lo que el agente aprendió con el tiempo?
Otra reacción, de dudosocuestionó el ámbito de “no incrustaciones” del repositorio, argumentando que el sistema aún tiene que fragmentar, indexar y recuperar memoria estructurada, y que puede funcionar perfectamente para agentes de contexto pequeño pero colapsar una vez que los almacenes de memoria se vuelven mucho más grandes.
Esa crítica es técnicamente importante. Eliminar una almohadilla de datos vectorial no elimina el diseño de recuperación; cambia donde vive la complejidad.
Para los desarrolladores, la compensación tiene menos que ver con la ideología que con la idoneidad. Una pila más liviana puede resultar atractiva para agentes de memoria limitada y de bajo costo, mientras que las implementaciones a veterano escalera aún pueden exigir controles de recuperación más estrictos, estrategias de indexación más explícitas y herramientas de ciclo de vida más sólidas.
ADK amplía la historia más allá de una sola demostración
Otros comentaristas se centraron en el flujo de trabajo de los desarrolladores. Alguno solicitó el repositorio y la documentación de ADK y quería retener si el tiempo de ejecución no tiene servidor o es de larga duración, y si los ganchos de evaluación y señal de herramientas están disponibles de industria.
Según los materiales proporcionados, la respuesta es efectivamente ambas: el ejemplo del agente de memoria en sí está estructurado como un servicio de larga duración, mientras que ADK admite más ampliamente múltiples patrones de implementación e incluye herramientas y capacidades de evaluación.
El agente de memoria siempre activo es interesante por sí solo, pero el mensaje más amplio es que Saboo está tratando de hacer que los agentes se sientan como sistemas de software desplegables en puesto de indicaciones aisladas. En ese ámbito, la memoria se convierte en parte de la capa de tiempo de ejecución, no sólo en una característica adicional.
Lo que Saboo ha demostrado y lo que no
Lo que Saboo no ha mostrado todavía es tan importante como lo que ha publicado.
Los materiales proporcionados no incluyen una narración directa de Flash-Lite frente a Anthropic Claude Haiku para bucles de agentes en uso de producción.
Siquiera establecen controles de cumplimiento de nivel empresarial específicos para este agente de memoria, como: límites de políticas deterministas, garantías de retención, reglas de segregación o flujos de trabajo de auditoría formales.
Y aunque el repositorio parece utilizar múltiples agentes especializados internamente, los materiales no prueban claramente una afirmación más amplia sobre la memoria persistente compartida entre múltiples agentes independientes.
Por ahora, el repositorio se lee como una plantilla de ingeniería convincente en puesto de una plataforma de memoria empresarial completa.
Por qué esto importa ahora
Aún así, el extensión llega en el momento adecuado. Los equipos de IA empresarial están yendo más allá de los asistentes de un solo turno y en torno a sistemas que se paciencia que recuerden las preferencias, preserven el contexto del tesina y operen en horizontes más largos.
El agente de memoria de código extenso de Saboo ofrece un punto de partida concreto para la posterior capa de infraestructura, y Flash-Lite le da cierta credibilidad a la peculio.
Pero la conclusión más importante de la reacción en torno al extensión es que la memoria continua se juzgará tanto por la gobernanza como por la capacidad.
Ésa es la verdadera pregunta empresarial detrás de la demostración de Saboo: no si un agente puede memorar, sino si puede memorar de forma que permanezca limitada, inspeccionable y lo suficientemente segura como para entregarse en manos en la producción.






