¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora
Una nueva técnica de Universidad de Zhejiang y Rama de alibaba Le da a los agentes del maniquí de estilo espacioso (LLM) una memoria dinámica, lo que los hace más eficientes y efectivos en tareas complejas. La técnica, emplazamiento MALproporciona a los agentes una “memoria de procedimiento” que se actualiza continuamente a medida que obtienen experiencia, al igual que cómo los humanos aprenden de la experiencia.
MEMP crea un situación de educación de por vida donde los agentes no tienen que comenzar desde cero para cada tarea nueva. En cambio, se vuelven progresivamente mejores y más eficientes a medida que encuentran nuevas situaciones en entornos del mundo existente, un requisito esencia para la automatización empresarial confiable.
El caso de la memoria procesal en los agentes de IA
Los agentes de LLM son prometedores para automatizar procesos comerciales complejos de varios pasos. Sin secuestro, en la experiencia, estas tareas de horario abundante pueden ser frágiles. Los investigadores señalan que eventos impredecibles como problemas de red, cambios en la interfaz de agraciado o esquemas de datos de cambio pueden descarrilar todo el proceso. Para los agentes actuales, esto a menudo significa comenzar de nuevo cada vez, lo que puede transigir mucho tiempo y costoso.
Mientras tanto, muchas tareas complejas, a pesar de las diferencias de superficie, comparten puntos en popular estructurales profundos. En oportunidad de retornar a educarse estos patrones cada vez, un agente debe poder extraer y reutilizar su experiencia de éxitos y fallas pasadas, señalan los investigadores. Esto requiere una “memoria de procedimiento” específica, que en humanos es la memoria a abundante plazo responsable de habilidades como escribir o deambular en velocípedo, que se vuelven automáticas con la experiencia.
AI Scaling alcanza sus límites
Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:
- Convertir la energía en una superioridad estratégica
- Edificio de inferencia capaz para ganancias reales de rendimiento
- Desbloquear ROI competitivo con sistemas de IA sostenibles
Asegure su oportunidad para mantenerse a la vanguardia: https://bit.ly/4mwgngo

Los sistemas de agentes actuales a menudo carecen de esta capacidad. Su conocimiento de procedimiento generalmente está hecho a mano por los desarrolladores, almacenados en plantillas de inmediato rígidas o incrustadas en el interior de los parámetros del maniquí, que son costosos y lentos para poner al día. Incluso los marcos existentes acuáticos de memoria proporcionan solo abstracciones gruesas y no abordan adecuadamente cómo las habilidades deben construirse, indexar, corregir y eventualmente podarse sobre el ciclo de vida de un agente.
En consecuencia, los investigadores notan en su papel“No hay una forma de principios de cuantificar cuán eficientemente un agente evoluciona su repertorio de procedimiento o asegurar que las nuevas experiencias mejoren en oportunidad del rendimiento de deterioro”.
Cómo funciona MEMP
MEMP es un situación descreído de tareas que negociación la memoria del procedimiento como un componente central para ser optimizado. Consiste en tres etapas esencia que funcionan en un onda continuo: construir, recuperar y poner al día la memoria.
Los memorias se construyen a partir de las experiencias pasadas de un agente, o “trayectorias”. Los investigadores exploraron el almacenamiento de estos memorias en dos formatos: acciones literales, paso a paso; o destilar estas acciones en abstracciones de nivel superior, similares a script. Para la recuperación, el agente examen en su memoria la experiencia pasada más relevante cuando se le da una nueva tarea. El equipo experimentó con diferentes métodos, dicha búsqueda vectorial, para que coincida con la descripción de la nueva tarea con consultas pasadas o extrayendo palabras esencia para encontrar el mejor ajuste.
El componente más crítico es el mecanismo de puesta al día. MEMP presenta varias estrategias para asegurar que evolucione la memoria del agente. A medida que un agente completa más tareas, su memoria se puede poner al día simplemente agregando la nueva experiencia, filtrándose solo para resultados exitosos o, más efectivamente, reflexionando sobre fallas para corregir y revisar la memoria diferente.

Este enfoque en la memoria dinámica y en transformación coloca a MEMP en el interior de un campo creciente de investigación destinado a hacer que los agentes de IA sean más confiables para las tareas a abundante plazo. El trabajo es paralelo a otros esfuerzos, como MEM0, que consolida información esencia de largas conversaciones en hechos estructurados y gráficos de conocimiento para asegurar la consistencia. Del mismo modo, A-MEM permite a los agentes crear y vincular de forma autónoma “notas de memoria” desde sus interacciones, formando una estructura de conocimiento compleja con el tiempo.
Sin secuestro, el coautor Runnan Fang destaca una distinción crítica entre MEMP y otros marcos.
“Mem0 y A-Mem son excelentes obras … pero se centran en memorar contenido sobresaliente en el interior Una sola trayectoria o conversación “, comentó Fang para emprender. Se centra en el conocimiento de “cómo hacer” que se puede pluralizar en tareas similares, evitando que el agente vuelva a explorar desde cero cada vez.
“Al destilar más allá de los flujos de trabajo exitosos en historial de procedimiento reutilizables, MEMP aumenta las tasas de éxito y acorta los pasos”, agregó Fang. “De guisa crucial, incluso presentamos un mecanismo de puesta al día para que esta memoria de procedimiento siga mejorando, luego de todo, la experiencia incluso hace la perfección para los agentes”.
Aventajar el problema de ‘inicio frío’
Si admisiblemente el concepto de educarse de las trayectorias pasadas es poderoso, plantea una pregunta experiencia: ¿cómo un agente construye su memoria auténtico cuando no hay ejemplos perfectos para educarse? Los investigadores abordan este problema de “inicio frío” con un enfoque pragmático.
Fang explicó que los desarrolladores primero pueden detallar una métrica de evaluación robusta en oportunidad de requerir una trayectoria perfecta de “oro” por precoz. Esta métrica, que puede probar en reglas o incluso otra LLM, califica la calidad del rendimiento de un agente. “Una vez que esa métrica está en su oportunidad, dejamos que los modelos de vanguardia exploren en el interior del flujo de trabajo del agente y retengan las trayectorias que logran los puntajes más altos”, dijo Fang. Este proceso inicia rápidamente un conjunto auténtico de memorias efectos, lo que permite que un nuevo agente se ponga al día sin una programación manual extensa.
Memp en movimiento
Para probar el situación, el equipo implementó MEMP encima de los poderosos LLM como GPT-4O, Claude 3.5 Sonnet y Qwen2.5, evaluándolos en tareas complejas como las tareas domésticas en el punto de remisión Alfworld y la búsqueda de información en Travelplanner. Los resultados mostraron que construir y recuperar la memoria procesal permitió a un agente destilar y reutilizar su experiencia previa de guisa efectiva.
Durante las pruebas, los agentes equipados con MEMP no solo lograron tasas de éxito más altas, sino que se volvieron mucho más eficientes. Eliminaron la exploración infructuosa y el sumario y el error, lo que llevó a una reducción sustancial tanto en el número de pasos como en el consumo de token requerido para completar una tarea.

Uno de los hallazgos más significativos para las aplicaciones empresariales es que la memoria de procedimiento es transferible. En un examen, la memoria de procedimiento generada por el potente GPT-4O se dio a un maniquí mucho más pequeño, QWEN2.5-14B. El maniquí más pequeño vio un impulso significativo en el rendimiento, mejorando su tasa de éxito y reduciendo los pasos necesarios para completar las tareas.
Según Fang, esto funciona porque los modelos más pequeños a menudo manejan admisiblemente las acciones simples de un solo paso, pero se vacilan cuando se negociación de planificación y razonamiento del horizonte abundante. La memoria de procedimiento del maniquí más espacioso llena efectivamente este vano de capacidad. Esto sugiere que el conocimiento se puede pescar utilizando un maniquí de última procreación, luego implementado en modelos más pequeños y más rentables sin perder los beneficios de esa experiencia.
Cerca de agentes verdaderamente autónomos
Al equipar a los agentes con mecanismos de puesta al día de la memoria, el situación MEMP les permite construir y refinar continuamente su conocimiento de procedimiento mientras operan en un entorno en vivo. Los investigadores encontraron que esto dotaba al agente un “dominio continuo y casi listado de la tarea”.
Sin secuestro, el camino en dirección a la autonomía completa requiere exceder otro obstáculo: muchas tareas del mundo existente, como producir un noticia de investigación, carecen de una señal de éxito simple. Para mejorar continuamente, un agente necesita aprender si hizo un buen trabajo. Fang dice que el futuro radica en el uso de LLM como jueces.
“Hoy a menudo combinamos modelos poderosos con reglas hechas a mano para calcular los puntajes de finalización”, señala. “Esto funciona, pero las reglas escritas a mano son frágiles y difíciles de pluralizar”.
Un LLM-As-Judge podría proporcionar la feedback matizada de supervisión necesaria para que un agente se autocorrija las tareas complejas y subjetivas. Esto haría que todo el circuito de educación sea más escalable y robusto, marcando un paso crítico para construir los trabajadores de IA resistentes, adaptables y verdaderamente autónomos necesarios para la automatización empresarial sofisticada.





