Anthropic dice que resolvió el problema del agente de IA de larga duración con un nuevo SDK de Claude multisesión

Anthropic dice que resolvió el problema del agente de IA de larga duración con un nuevo SDK de Claude multisesión

La memoria de los agentes sigue siendo un problema que las empresas quieren solucionar, ya que los agentes olvidan algunas instrucciones o conversaciones cuanto más se ejecutan.

antrópico cree que ha resuelto este problema por su SDK del agente Claudedesarrollando una posibilidad doble que permite a un agente trabajar en diferentes ventanas contextuales.

“El desafío principal de los agentes de larga duración es que deben trabajar en sesiones discretas, y cada nueva sesión comienza sin recapacitar lo que sucedió antiguamente”, escribió Anthropic en una publicación de blog. “Oportuno a que las ventanas de contexto son limitadas y adecuado a que la mayoría de los proyectos complejos no se pueden completar en una sola ventana, los agentes necesitan una forma de cerrar la brecha entre las sesiones de codificación”.

Los ingenieros de Anthropic propusieron un enfoque doble para su Agent SDK: un agente inicializador para configurar el entorno y un agente de codificación para realizar avances incrementales en cada sesión y dejar artefactos para la venidero.

El problema de la memoria del agente.

Legado que los agentes se construyen sobre modelos básicos, siguen estando limitados por ventanas de contexto limitadas, aunque en continuo crecimiento. Para los agentes de larga duración, esto podría crear un problema veterano, haciendo que el agente olvide instrucciones y se comporte de guisa anormal mientras realiza una tarea. Mejoría de la memoria del agente se vuelve esencial para un desempeño consistente y seguro para el negocio.

Durante el año pasado surgieron varios métodos, todos intentando cerrar la brecha entre las ventanas de contexto y la memoria del agente. LangChainel SDK de LangMem, Cojín de notas y Libre AI‘s Swarm son ejemplos de empresas que ofrecen soluciones de memoria. La investigación sobre la memoria agente incluso se ha disparado recientemente, con propuestas marcos como Memp y el Molde de formación anidado de Google ofreciendo nuevas alternativas para mejorar la memoria.

Muchos de los marcos de memoria actuales son de código campechano y, idealmente, pueden adaptarse a diferentes agentes de potencia de modelos de idioma grandes (LLM). El enfoque de Anthropic mejoría su Claude Agent SDK.

como funciona

Anthropic identificó que, aunque Claude Agent SDK tenía capacidades de mandato de contexto y “debería ser posible que un agente continúe haciendo un trabajo útil durante un tiempo arbitrariamente grande”, no era suficiente. La compañía dijo en su blog que un maniquí como el Opus 4.5 ejecutar el SDK de Claude Agent puede “no salir a crear una aplicación web con calidad de producción si solo se le proporciona un mensaje de parada nivel, como ‘reunir un clon de claude.ai’”.

Las fallas se manifestaron en dos patrones, dijo Anthropic. Primero, el agente intentó hacer demasiado, lo que provocó que el maniquí se saliera de contexto en el medio. Luego, el agente tiene que adivinar lo que sucedió y no puede advenir instrucciones claras al venidero agente. El segundo desacierto se produce más delante, cuando ya se han creado algunas funciones. El agente ve que se han realizado progresos y simplemente declara el trabajo realizado.

Los investigadores de Anthropic desglosaron la posibilidad: configurar un entorno auténtico para sentar las bases de las funciones e incitar a cada agente a realizar un progreso incremental cerca de un objetivo, sin dejar de dejar un borrón y cuenta nueva al final.

Aquí es donde entra en bisagra la posibilidad de dos partes del agente de Anthropic. El agente inicializador configura el entorno, registra lo que los agentes han hecho y qué archivos se han junto. Luego, el agente de codificación pedirá a los modelos que realicen avances incrementales y dejen actualizaciones estructuradas.

“La inspiración para estas prácticas surgió al conocer qué hacen los ingenieros de software eficaces todos los días”, dijo Anthropic.

Los investigadores dijeron que agregaron herramientas de prueba al agente de codificación, mejorando su capacidad para identificar y corregir errores que no eran obvios solo en el código.

Investigaciones futuras

Anthropic señaló que su enfoque es “un posible conjunto de soluciones en un conjunto de agentes de larga duración”. Sin bloqueo, esta es solo la etapa auténtico de lo que podría convertirse en un dominio de investigación más amplia para muchos en el espacio de la IA.

La compañía dijo que sus experimentos para mejorar la memoria a grande plazo de los agentes no han demostrado si un único agente de codificación de propósito común funciona mejor en todos los contextos o una estructura de múltiples agentes.

Su demostración incluso se centró en el ampliación de aplicaciones web de pila completa, por lo que otros experimentos deberían centrarse en divulgar los resultados en diferentes tareas.

“Es probable que algunas o todas estas lecciones puedan aplicarse a los tipos de tareas de agencia de larga duración requeridas, por ejemplo, en la investigación científica o la modelización financiera”, dijo Anthropic.

Related Posts

El teléfono Androide de Honor es verdadero y llegará a finales de este año

La cámara asiente, raño al son de la música y sigue los rostros. El resto de especificaciones son un secreto. Poco inusual sucedió en el Mobile World Congress de este…

Samsung confirma las capacidades de las anteojos inteligentes para competir con Meta Ray-Ban: lo que viene

Kerry Wan/ZDNET Siga ZDNET: Agréganos como fuente preferida en Google. Conclusiones secreto de ZDNET Samsung compartió los primeros detalles de sus próximas anteojos inteligentes con IA. Las anteojos parecen pender…

You Missed

El teléfono Androide de Honor es verdadero y llegará a finales de este año

El teléfono Androide de Honor es verdadero y llegará a finales de este año

NY: Padre e hijo delatados por cámara de seguridad… – Remolacha

NY: Padre e hijo delatados por cámara de seguridad… – Remolacha

Samsung confirma las capacidades de las anteojos inteligentes para competir con Meta Ray-Ban: lo que viene

Samsung confirma las capacidades de las anteojos inteligentes para competir con Meta Ray-Ban: lo que viene

Realineamiento energético: el colapso de Irán  | AlMomento.net

Realineamiento energético: el colapso de Irán  | AlMomento.net

El 66.1% de la matrícula universitaria en RD son mujeres

El 66.1% de la matrícula universitaria en RD son mujeres

Conexiones del NYT de hoy: sugerencias y respuestas de la estampado deportiva del 8 de marzo #531

Conexiones del NYT de hoy: sugerencias y respuestas de la estampado deportiva del 8 de marzo #531