MemRL supera a RAG en pruebas comparativas de agentes complejos sin escazes de realizar ajustes

MemRL supera a RAG en pruebas comparativas de agentes complejos sin escazes de realizar ajustes

Una nueva técnica desarrollada por investigadores de la Universidad Jiao Tong de Shanghai y otras instituciones permite a los grandes agentes de modelos de estilo formarse nuevas habilidades sin la escazes de costosos ajustes.

Los investigadores proponen MemRLun entorno que brinda a los agentes la capacidad de desarrollar memoria episódica, la capacidad de recuperar experiencias pasadas para crear soluciones para tareas invisibles. MemRL permite a los agentes utilizar la feedback ambiental para perfeccionar continuamente sus estrategias de resolución de problemas.

MemRL es parte de un impulso más amplio en la comunidad de investigación para desarrollar educación continuo Capacidades para aplicaciones de IA. En experimentos con puntos de remisión esencia de la industria, el entorno superó otras líneas de saco como RAG y otras técnicas de estructura de la memoria, particularmente en entornos complejos que requieren exploración y experimentos. Esto sugiere que MemRL podría convertirse en un componente crítico para crear aplicaciones de IA que deben proceder en entornos dinámicos del mundo positivo donde los requisitos y las tareas cambian constantemente.

El dilema estabilidad-plasticidad

Uno de los desafíos centrales en la implementación de aplicaciones agentes es adaptar el maniquí subyacente a nuevos conocimientos y tareas posteriormente de la etapa de capacitación original. Los enfoques actuales generalmente se dividen en dos categorías: enfoques paramétricos, como sintonia FINAy enfoques no paramétricos, como RAG. Pero uno y otro conllevan importantes compensaciones.

El ajuste fino, si aceptablemente es eficaz para incorporar nueva información, es computacionalmente costoso y pausado. Lo que es más importante, a menudo conduce a olvido catastróficoun aberración en el que el conocimiento recién adquirido sobrescribe los datos aprendidos previamente, degradando el rendimiento universal del maniquí.

Por el contrario, los métodos no paramétricos como RAG son fundamentalmente pasivos; recuperan información basándose exclusivamente en similitudes semánticas, como incrustaciones de vectores, sin evaluar la utilidad positivo de la información para la consulta de entrada. Este enfoque supone que "similar implica útil," que a menudo tiene fallas en tareas de razonamiento complejas.

Los investigadores sostienen que la inteligencia humana resuelve este problema manteniendo “el delicado estabilidad entre la estabilidad del razonamiento cognitivo y la plasticidad de la memoria episódica”. En el cerebro humano, el razonamiento estable (asociado con la corteza) está desacoplado de la memoria episódica dinámica. Esto permite a los humanos adaptarse a nuevas tareas sin "recableado de circuitos neuronales" (el equivalente contiguo del ajuste fino del maniquí).

Internamente del entorno MemRL

Inspirado en el uso que hacen los humanos de la memoria episódica y el razonamiento cognitivo, MemRL está diseñado para permitir que un agente mejore continuamente su rendimiento posteriormente del despliegue sin comprometer la estabilidad de su LLM principal. En puesto de cambiar los parámetros del maniquí, el entorno cambia el mecanismo de aclimatación a una estructura de memoria externa que evoluciona por sí misma.

En esta casa, los parámetros del LLM permanecen completamente congelados. El maniquí actúa efectivamente como "corteza," Es responsable del razonamiento universal, la deducción y la gestación de código, pero no es responsable de acumular los éxitos o fracasos específicos encontrados posteriormente de la implementación. Esta estructura asegura un razonamiento cognitivo estable y previene olvidos catastróficos.

Para manejar la aclimatación, MemRL mantiene un componente de memoria episódica dinámica. En puesto de acumular documentos de texto plano y títulos de incrustación estáticos, como es popular en RAG, MemRL organiza la memoria en "intención-experiencia-utilidad" trillizos. Estos contienen la consulta del afortunado (la intención), la trayectoria de opción específica o la batalla tomada (la experiencia) y una puntuación, conocida como valía Q, que representa el éxito de esta experiencia específica en el pasado (la utilidad).

Fundamentalmente para los arquitectos empresariales, esta nueva estructura de datos no requiere eliminar la infraestructura existente. "MemRL está diseñado para ser un reemplazo directo de la capa de recuperación en las pilas de tecnología existentes y es compatible con varias bases de datos vectoriales." Muning Wen, coautor del artículo y candidato a doctorado en la Universidad Jiao Tong de Shanghai, dijo a VentureBeat. "La existencia y puesta al día de ‘Q-Value’ es exclusivamente para una mejor evaluación y diligencia de datos dinámicos… y es independiente del formato de almacenamiento."

Esta puntuación de utilidad es el diferenciador esencia de los sistemas RAG clásicos. En el momento de la inferencia, los agentes MemRL emplean un "recuperación en dos fases" mecanismo. Primero, el sistema identifica saludos que están semánticamente cerca de la consulta para certificar la relevancia. Luego, vuelve a clasificar a estos candidatos según su valía Q, priorizando efectivamente estrategias probadas.

El entorno incorpora el educación por refuerzo directamente en el proceso de recuperación de la memoria. Cuando un agente intenta una opción y recibe feedback ambiental (es sostener, éxito o fracaso), actualiza el valía Q de la memoria recuperada. Esto crea un circuito de feedback cerrado: con el tiempo, el agente aprende a ignorar los saludos distractores y a priorizar estrategias de suspensión valía sin escazes de retornar a capacitar al LLM subyacente.

Si aceptablemente ampliar un paso de educación por refuerzo puede parecer que agrega una latencia significativa, Wen señaló que la sobrecarga computacional es mínima. "Nuestro cálculo del valía Q se realiza íntegramente en la CPU," dijo.

MemRL además posee capacidades de educación continuo en tiempo de ejecución. Cuando el agente encuentra un nuevo proscenio, el sistema utiliza el LLM congelado para resumir la nueva trayectoria y la agrega al faja de memoria como un nuevo triplete. Esto permite al agente ampliar su saco de conocimientos de forma dinámica a medida que interactúa con el mundo.

Vale la pena señalar que la automatización de la asignación de valía conlleva un peligro: si el sistema valida por error una mala interacción, el agente podría formarse la enseñanza equivocada. Wen lo reconoce "memoria envenenada" peligro, pero señala que, a diferencia de las redes neuronales de caja negra, MemRL sigue siendo transparente y auditable. "Si una mala interacción se clasifica erróneamente como un ejemplo positivo… puede dilatarse más ampliamente," dijo Wen. "Sin incautación… podemos solucionarlo fácilmente eliminando los datos contaminados del faja de memoria o restableciendo sus títulos Q."

MemRL en batalla

Los investigadores evaluaron MemRL frente a varias líneas de saco en cuatro puntos de remisión diversos de la industria: BigCodeBench (gestación de código), ALFWorld (navegación incorporada), Lifelong Agent Bench (interacción entre el sistema operante y la saco de datos) y Humanity’s Last Exam (razonamiento multidisciplinario enrevesado).

Los resultados mostraron que MemRL superó consistentemente las líneas de saco tanto en el educación en tiempo de ejecución (mejorando durante la sesión) como en el educación por transferencia (generalizando a tareas invisibles).

Las ventajas de este mecanismo de recuperación consciente del valía fueron más pronunciadas en entornos con mucha exploración como ALFWorld. En este punto de remisión, que requiere que los agentes naveguen e interactúen con un entorno doméstico simulado, MemRL logró una restablecimiento relativa de aproximadamente el 56 % con respecto a MemPotro entorno de memoria agente. Los investigadores descubrieron que el componente de educación por refuerzo animaba eficazmente al agente a explorar y descubrir soluciones para tareas complejas que los métodos de recuperación basados ​​en similitudes a menudo no lograban resolver.

Cuando el faja de memoria se congeló y se probó en conjuntos reservados para cronometrar la divulgación, MemRL logró la decano precisión en todos los puntos de remisión. Por ejemplo, en Lifelong Agent Bench, mejoró significativamente con respecto a la saco de remisión típico de RAG en tareas del sistema operante. Esto indica que el sistema no se limita a memorizar datos de entrenamiento, sino que filtra eficazmente saludos de bajo valía para retener experiencias de ingreso utilidad que se generalizan a situaciones nuevas.

El panorama más amplio para los agentes que evolucionan a sí mismos

MemRL encaja interiormente de un creciente cuerpo de investigación centrado en los procesos de valor de Markov basados ​​en la memoria (M-MDP), una formulación que enmarca la recuperación de la memoria como un paso activo en la toma de decisiones en puesto de una función de búsqueda pasiva. Al tratar la recuperación como una batalla que se puede optimizar mediante el educación por refuerzo, marcos como MemRL y enfoques similares como Regalo están allanando el camino para sistemas más autónomos.

Para la IA empresarial, este cambio es significativo. Sugiere un futuro en el que los agentes puedan implementarse con un LLM de propósito universal y luego adaptarse rápidamente a flujos de trabajo específicos de la empresa, bases de datos patentadas y conjuntos de problemas únicos solo mediante la interacción. El cambio esencia que estamos viendo son los marcos que tratan las aplicaciones como entornos dinámicos de los que pueden formarse.

Estas capacidades emergentes permitirán a las organizaciones sostener agentes consistentes y de suspensión rendimiento que evolucionen próximo con sus micción comerciales, resolviendo el problema de los modelos obsoletos sin incurrir en los costos prohibitivos de una capacitación constante.

Marca una transición en la forma en que valoramos los datos. "En un futuro donde los datos estáticos están a punto de agotarse, la experiencia de interacción generada por cada agente inteligente durante su vida útil se convertirá en el nuevo combustible." dijo Wen.

Related Posts

Siglos antiguamente que los incas, los ricos del Perú importaban loros de allí

Las coloridas plumas azules, verdes y rojas de los loros fueron el símbolo de status, “esencial para comunicar status, poder y cosmología”, como lo expresaron Olah y sus colegas. En…

Google se prepara para soportar las cargas de PDF en modo AI a Android

Mishaal Rahman / Autoridad de Android TL;DR El modo AI en la aplicación de Google en Android actualmente solo admite la carga de imágenes. La carga de archivos solo funciona…

You Missed

Así fue el tercer cumpleaños de Cattleya, la hija de Yailin

Así fue el tercer cumpleaños de Cattleya, la hija de Yailin

Reportan beocio desaparecida de 14 primaveras en San Pedro de Macorís

Reportan beocio desaparecida de 14 primaveras en San Pedro de Macorís

Anuncian en Plaza la 3ra Semana de Concienciación sobre el Autismo con exposición artística y jornadas de diálogo

Anuncian en Plaza la 3ra Semana de Concienciación sobre el Autismo con exposición artística y jornadas de diálogo

Asociación Cibao presentará dietario educativa en la Semana Económica y Financiera del BCRD

Asociación Cibao presentará dietario educativa en la Semana Económica y Financiera del BCRD

Siglos antiguamente que los incas, los ricos del Perú importaban loros de allí

Siglos antiguamente que los incas, los ricos del Perú importaban loros de allí

COE descontinúa alerta verde y levantan restricciones marítimas tras mejoría del clima

COE descontinúa alerta verde y levantan restricciones marítimas tras mejoría del clima