
Una nueva técnica desarrollada por investigadores de la Universidad Jiao Tong de Shanghai y otras instituciones permite a los grandes agentes de modelos de jerga instruirse nuevas habilidades sin la pobreza de costosos ajustes.
Los investigadores proponen MemRLun ámbito que brinda a los agentes la capacidad de desarrollar memoria episódica, la capacidad de recuperar experiencias pasadas para crear soluciones para tareas invisibles. MemRL permite a los agentes utilizar la feedback ambiental para perfeccionar continuamente sus estrategias de resolución de problemas.
MemRL es parte de un impulso más amplio en la comunidad de investigación para desarrollar educación continuo Capacidades para aplicaciones de IA. En experimentos con puntos de relato secreto de la industria, el ámbito superó otras líneas de saco como RAG y otras técnicas de estructura de la memoria, particularmente en entornos complejos que requieren exploración y experimentos. Esto sugiere que MemRL podría convertirse en un componente crítico para crear aplicaciones de IA que deben proceder en entornos dinámicos del mundo actual donde los requisitos y las tareas cambian constantemente.
El dilema estabilidad-plasticidad
Uno de los desafíos centrales en la implementación de aplicaciones agentes es adaptar el maniquí subyacente a nuevos conocimientos y tareas a posteriori de la etapa de capacitación auténtico. Los enfoques actuales generalmente se dividen en dos categorías: enfoques paramétricos, como sintonia FINAy enfoques no paramétricos, como RAG. Pero los dos conllevan importantes compensaciones.
El ajuste fino, si aceptablemente es eficaz para incorporar nueva información, es computacionalmente costoso y tranquilo. Lo que es más importante, a menudo conduce a olvido catastróficoun engendro en el que el conocimiento recién adquirido sobrescribe los datos aprendidos previamente, degradando el rendimiento militar del maniquí.
Por el contrario, los métodos no paramétricos como RAG son fundamentalmente pasivos; recuperan información basándose sólo en similitudes semánticas, como incrustaciones de vectores, sin evaluar la utilidad actual de la información para la consulta de entrada. Este enfoque supone que "similar implica útil," que a menudo tiene fallas en tareas de razonamiento complejas.
Los investigadores sostienen que la inteligencia humana resuelve este problema manteniendo “el delicado seguridad entre la estabilidad del razonamiento cognitivo y la plasticidad de la memoria episódica”. En el cerebro humano, el razonamiento estable (asociado con la corteza) está desacoplado de la memoria episódica dinámica. Esto permite a los humanos adaptarse a nuevas tareas sin "recableado de circuitos neuronales" (el equivalente a ojo del ajuste fino del maniquí).
Internamente del ámbito MemRL
Inspirado en el uso que hacen los humanos de la memoria episódica y el razonamiento cognitivo, MemRL está diseñado para permitir que un agente mejore continuamente su rendimiento a posteriori del despliegue sin comprometer la estabilidad de su LLM principal. En punto de cambiar los parámetros del maniquí, el ámbito cambia el mecanismo de acomodo a una estructura de memoria externa que evoluciona por sí misma.
En esta construcción, los parámetros del LLM permanecen completamente congelados. El maniquí actúa efectivamente como "corteza," Es responsable del razonamiento militar, la razonamiento y la concepción de código, pero no es responsable de acumular los éxitos o fracasos específicos encontrados a posteriori de la implementación. Esta estructura asegura un razonamiento cognitivo estable y previene olvidos catastróficos.
Para manejar la acomodo, MemRL mantiene un componente de memoria episódica dinámica. En punto de acumular documentos de texto plano y títulos de incrustación estáticos, como es popular en RAG, MemRL organiza la memoria en "intención-experiencia-utilidad" trillizos. Estos contienen la consulta del beneficiario (la intención), la trayectoria de posibilidad específica o la argumento tomada (la experiencia) y una puntuación, conocida como valencia Q, que representa el éxito de esta experiencia específica en el pasado (la utilidad).
Fundamentalmente para los arquitectos empresariales, esta nueva estructura de datos no requiere eliminar la infraestructura existente. "MemRL está diseñado para ser un reemplazo directo de la capa de recuperación en las pilas de tecnología existentes y es compatible con varias bases de datos vectoriales." Muning Wen, coautor del artículo y candidato a doctorado en la Universidad Jiao Tong de Shanghai, dijo a VentureBeat. "La existencia y aggiornamento de ‘Q-Value’ es sólo para una mejor evaluación y diligencia de datos dinámicos… y es independiente del formato de almacenamiento."
Esta puntuación de utilidad es el diferenciador secreto de los sistemas RAG clásicos. En el momento de la inferencia, los agentes MemRL emplean un "recuperación en dos fases" mecanismo. Primero, el sistema identifica saludos que están semánticamente cerca de la consulta para respaldar la relevancia. Luego, vuelve a clasificar a estos candidatos según su valencia Q, priorizando efectivamente estrategias probadas.
El ámbito incorpora el educación por refuerzo directamente en el proceso de recuperación de la memoria. Cuando un agente intenta una posibilidad y recibe feedback ambiental (es sostener, éxito o fracaso), actualiza el valencia Q de la memoria recuperada. Esto crea un circuito de feedback cerrado: con el tiempo, el agente aprende a ignorar los saludos distractores y a priorizar estrategias de parada valencia sin pobreza de retornar a capacitar al LLM subyacente.
Si aceptablemente sumar un paso de educación por refuerzo puede parecer que agrega una latencia significativa, Wen señaló que la sobrecarga computacional es mínima. "Nuestro cálculo del valencia Q se realiza íntegramente en la CPU," dijo.
MemRL igualmente posee capacidades de educación continuo en tiempo de ejecución. Cuando el agente encuentra un nuevo escena, el sistema utiliza el LLM congelado para resumir la nueva trayectoria y la agrega al porción de memoria como un nuevo triplete. Esto permite al agente ampliar su saco de conocimientos de forma dinámica a medida que interactúa con el mundo.
Vale la pena señalar que la automatización de la asignación de valencia conlleva un aventura: si el sistema valida por error una mala interacción, el agente podría instruirse la catequesis equivocada. Wen lo reconoce "memoria envenenada" aventura, pero señala que, a diferencia de las redes neuronales de caja negra, MemRL sigue siendo transparente y auditable. "Si una mala interacción se clasifica erróneamente como un ejemplo positivo… puede tenderse más ampliamente," dijo Wen. "Sin confiscación… podemos solucionarlo fácilmente eliminando los datos contaminados del porción de memoria o restableciendo sus títulos Q."
MemRL en argumento
Los investigadores evaluaron MemRL frente a varias líneas de saco en cuatro puntos de relato diversos de la industria: BigCodeBench (concepción de código), ALFWorld (navegación incorporada), Lifelong Agent Bench (interacción entre el sistema activo y la saco de datos) y Humanity’s Last Exam (razonamiento multidisciplinario enrevesado).
Los resultados mostraron que MemRL superó consistentemente las líneas de saco tanto en el educación en tiempo de ejecución (mejorando durante la sesión) como en el educación por transferencia (generalizando a tareas invisibles).
Las ventajas de este mecanismo de recuperación consciente del valencia fueron más pronunciadas en entornos con mucha exploración como ALFWorld. En este punto de relato, que requiere que los agentes naveguen e interactúen con un entorno doméstico simulado, MemRL logró una mejoría relativa de aproximadamente el 56 % con respecto a MemPotro ámbito de memoria agente. Los investigadores descubrieron que el componente de educación por refuerzo animaba eficazmente al agente a explorar y descubrir soluciones para tareas complejas que los métodos de recuperación basados en similitudes a menudo no lograban resolver.
Cuando el porción de memoria se congeló y se probó en conjuntos reservados para contar la extensión, MemRL logró la longevo precisión en todos los puntos de relato. Por ejemplo, en Lifelong Agent Bench, mejoró significativamente con respecto a la saco de relato unificado de RAG en tareas del sistema activo. Esto indica que el sistema no se limita a memorizar datos de entrenamiento, sino que filtra eficazmente saludos de bajo valencia para retener experiencias de ingreso utilidad que se generalizan a situaciones nuevas.
El panorama más amplio para los agentes que evolucionan a sí mismos
MemRL encaja interiormente de un creciente cuerpo de investigación centrado en los procesos de intrepidez de Markov basados en la memoria (M-MDP), una formulación que enmarca la recuperación de la memoria como un paso activo en la toma de decisiones en punto de una función de búsqueda pasiva. Al tratar la recuperación como una argumento que se puede optimizar mediante el educación por refuerzo, marcos como MemRL y enfoques similares como Retentiva están allanando el camino para sistemas más autónomos.
Para la IA empresarial, este cambio es significativo. Sugiere un futuro en el que los agentes puedan implementarse con un LLM de propósito militar y luego adaptarse rápidamente a flujos de trabajo específicos de la empresa, bases de datos patentadas y conjuntos de problemas únicos solo mediante la interacción. El cambio secreto que estamos viendo son los marcos que tratan las aplicaciones como entornos dinámicos de los que pueden instruirse.
Estas capacidades emergentes permitirán a las organizaciones proseguir agentes consistentes y de parada rendimiento que evolucionen inmediato con sus deyección comerciales, resolviendo el problema de los modelos obsoletos sin incurrir en los costos prohibitivos de una capacitación constante.
Marca una transición en la forma en que valoramos los datos. "En un futuro donde los datos estáticos están a punto de agotarse, la experiencia de interacción generada por cada agente inteligente durante su vida útil se convertirá en el nuevo combustible." dijo Wen.





