EAGLET aumenta el rendimiento de los agentes de IA en tareas a espléndido plazo mediante la engendramiento de planes personalizados

EAGLET aumenta el rendimiento de los agentes de IA en tareas a espléndido plazo mediante la engendramiento de planes personalizados

Se suponía que 2025 sería el año de "agentes de IA," según el director ejecutante de Nvidia, Jensen Huang, y otro personal de la industria de la IA. Y lo ha sido, en muchos sentidos, con numerosos proveedores líderes de modelos de IA, como OpenAI, Google e incluso competidores chinos como Alibaba, que han osado modelos o aplicaciones de IA perfeccionados diseñados para centrarse en un conjunto constreñido de tareas, como la búsqueda en la web y la redacción de informes.

Pero aún queda un gran obstáculo para un futuro de agentes de IA confiables y de parada rendimiento: alcanzar que permanezcan concentrados en la tarea cuando ésta se extiende a lo espléndido de varios pasos. Pruebas comparativas de terceros muestran que incluso los modelos de IA más potentes experimentan mayores tasas de fracaso cuanto más pasos dan para completar una tarea y más tiempo dedican a ella (más de horas).

A nuevo situación universitario llamado EAGLET propone un método práctico y capaz para mejorar el desempeño de tareas a espléndido plazo en agentes basados ​​en LLM, sin la escazes de etiquetado manual de datos o reentrenamiento.

Desarrollado por investigadores de la Universidad de Tsinghua, la Universidad de Pekín, DeepLang AI y la Universidad de Illinois Urbana-Champaign, EAGLET ofrece una "planificador entero" que se puede integrar en los flujos de trabajo de los agentes existentes para resumir las alucinaciones y mejorar la eficiencia de las tareas.

EAGLET es un maniquí de jerigonza perfeccionado que interpreta las instrucciones de las tareas (normalmente proporcionadas como indicaciones por el heredero o el entorno activo del agente) y genera un plan de parada nivel para el agente (impulsado por su propio LLM). No interviene durante la ejecución, pero su orientación auténtico ayuda a resumir los errores de planificación y mejorar las tasas de finalización de tareas.

Acometer el problema de la planificación en los agentes con horizontes a espléndido plazo

Muchos agentes de LLM luchan con tareas de espléndido plazo porque dependen de un razonamiento reactivo, paso a paso. Este enfoque a menudo conduce a comportamientos de prueba y error, alucinaciones de planificación y trayectorias ineficientes.

EAGLET aborda esta inconveniente introduciendo un módulo de planificación entero que trabaja anejo al agente ejecutor.

En circunscripción de combinar planificación y engendramiento de acciones en un solo maniquí, EAGLET las separa, permitiendo estrategias más coherentes a nivel de tareas.

Un proceso de capacitación de dos etapas sin anotaciones humanas

El planificador de EAGLET se entrena mediante un proceso de dos etapas que no requiere planes ni anotaciones escritos por humanos.

La primera etapa consiste en originar planes sintéticos con LLM de reincorporación capacidad, como GPT-5 y DeepSeek-V3.1-Think.

Luego, estos planes se filtran utilizando una logística novedosa convocatoria filtrado de consenso homólogo, que retiene solo aquellos que mejoran el desempeño de la tarea tanto para los agentes ejecutores expertos como para los novatos.

En la segunda etapa, un proceso de formación por refuerzo basado en reglas refina aún más el planificador, utilizando una función de remuneración diseñada a medida para evaluar en qué medida cada plan ayuda a que varios agentes tengan éxito.

Presentamos la remuneración por provecho de capacidad del ejecutor (ECGR)

Una de las innovaciones esencia de EAGLET es la remuneración por provecho de capacidad del ejecutor (ECGR).

Esta remuneración mide el valía de un plan generado comprobando si ayuda a los agentes de reincorporación y desaparecido capacidad a completar las tareas con decano éxito y con menos pasos.

Igualmente incluye un ejecutor de decadencia para apoyar trayectorias de tareas más cortas y eficientes. Este enfoque evita planes excesivamente gratificantes que sólo son enseres para agentes que ya son competentes y promueve una orientación de planificación más generalizable.

Compatible con agentes y modelos existentes

El planificador EAGLET está diseñado para ser modular y "embragar y usar," lo que significa que se puede insertar en las canalizaciones de agentes existentes sin escazes de retornar a capacitar al ejecutor.

En las evaluaciones, el planificador mejoró el rendimiento en una variedad de modelos fundamentales, incluidos GPT-4.1, GPT-5, Fogata-3.1 y Qwen2.5.

Igualmente demostró ser eficaz independientemente de la logística de indicaciones, funcionando aceptablemente con indicaciones standard del estilo ReAct, así como con enfoques como Reflexion.

Rendimiento de última engendramiento en todos los puntos de relato

EAGLET se probó en tres puntos de relato ampliamente utilizados para tareas de agentes de espléndido plazo: ScienceWorld, que simula experimentos científicos en un entorno de laboratorio basado en texto; ALFWorld, que asigna a los agentes la tarea de completar actividades domésticas a través del jerigonza natural en un entorno doméstico simulado; y WebShop, que evalúa el comportamiento basado en objetivos en una interfaz de operación en límite realista.

En los tres, los agentes ejecutores equipados con EAGLET superaron a sus contrapartes que no planifican y a otras líneas de almohadilla de planificación, incluidos MPO y KnowAgent.

En experimentos con el maniquí de código extenso Fogata-3.1-8B-Instruct, EAGLET aumentó el rendimiento promedio de 39,5 a 59,4, una provecho de +19,9 puntos en todas las tareas.

En escenarios invisibles de ScienceWorld, aumentó el rendimiento de 42,2 a 61,6.

En los escenarios vistos por ALFWorld, EAGLET mejoró los resultados de 22,9 a 54,3, un aumento de más de 2,3 veces en el rendimiento.

Se observaron ganancias aún mayores con modelos más capaces.

Por ejemplo, GPT-4.1 mejoró de 75,5 a 82,2 puntuación promedio con EAGLET, y GPT-5 aumentó de 84,5 a 88,1, a pesar de que ya tenía un buen desempeño.

En algunos puntos de relato, las ganancias de rendimiento alcanzaron hasta +11,8 puntos, como cuando se combina EAGLET con el método ejecutor ETO en tareas invisibles de ALFWorld.

En comparación con otras líneas almohadilla de planificación como MPO, EAGLET entregó consistentemente tasas de finalización de tareas más altas. Por ejemplo, en tareas invisibles de ALFWorld con GPT-4.1, MPO logró 79,1, mientras que EAGLET obtuvo 83,6, una superioridad de +4,5 puntos.

Por otra parte, el documento informa que los agentes que utilizan EAGLET completan tareas en menos pasos en promedio. Con GPT-4.1 como ejecutor, el recuento promedio de pasos se redujo de 13,0 (sin planificador) a 11,1 (EAGLET). Con GPT-5, cayó de 11,4 a 9,4, lo que respalda la afirmación de una decano eficiencia de ejecución.

Ganancias de eficiencia en capacitación y ejecución

En comparación con los métodos basados ​​en RL como GiGPO, que pueden requerir cientos de iteraciones de entrenamiento, EAGLET logró resultados mejores o comparables con aproximadamente una octava parte del esfuerzo de entrenamiento.

Esta eficiencia incluso se traslada a la ejecución: los agentes que utilizan EAGLET normalmente necesitaban menos pasos para completar las tareas. Esto se traduce en una reducción del tiempo de inferencia y del costo de cuenta en escenarios de producción.

No hay código conocido… todavía

A partir de la traducción enviada a arXiv, los autores no han publicado una implementación de código extenso de EAGLET. No está claro si el código se publicará ni cuándo, bajo qué atrevimiento o cómo se mantendrá, lo que puede cercar la utilidad a corto plazo del situación para la implementación empresarial.

VentureBeat se ha comunicado con los autores para aclarar estos puntos y actualizará este artículo cuando tengamos informativo.

Aún quedan dudas sobre la implementación empresarial

Si aceptablemente el planificador se describe como plug-and-play, no está claro si EAGLET se puede integrar fácilmente en marcos de agentes empresariales populares como LangChain o AutoGen, o si requiere una pila personalizada para cobijar la separación del plan y la ejecución.

De modo similar, la configuración de capacitación aprovecha múltiples agentes ejecutores, lo que puede ser difícil de replicar en entornos empresariales con golpe constreñido al maniquí. VentureBeat preguntó a los investigadores si el método de filtrado de consenso homólogo se puede adaptar para equipos que solo tienen golpe a un maniquí ejecutor o bienes informáticos limitados.

Los autores de EAGLET informan sobre el éxito en todos los tipos y tamaños de modelos, pero aún no se sabe cuál es la escalera de maniquí mínima viable para una implementación habilidad. Por ejemplo, ¿pueden los equipos empresariales utilizar el planificador de forma eficaz con modelos abiertos de parámetros inferiores a 10.000 millones en entornos sensibles a la latencia? Por otra parte, el situación puede ofrecer valía específico de la industria en dominios como atención al cliente o automatización de TI, pero aún está por ver con qué facilidad se puede ajustar o personalizar el planificador para dichas verticales.

Planificación en tiempo existente frente a planificación pregenerada

Otra pregunta abierta es cuál es la mejor modo de implementar EAGLET en la habilidad. ¿Debería el planificador actuar en tiempo existente anejo con los ejecutores adentro de un caracolillo, o es mejor usarlo fuera de límite para pregenerar planes globales para tipos de tareas conocidos? Cada enfoque tiene implicaciones para la latencia, el costo y la complejidad operativa. VentureBeat ha planteado esta pregunta a los autores e informará cualquier información que surja.

Compensaciones estratégicas para equipos empresariales

Para los líderes técnicos de empresas medianas y grandes, EAGLET representa una prueba de concepto convincente para mejorar la confiabilidad y eficiencia de los agentes LLM. Pero sin herramientas públicas ni pautas de implementación, el situación aún presenta una valentía de construir frente a esperar. Las empresas deben considerar las ganancias potenciales en el desempeño y la eficiencia de las tareas frente a los costos de reproducir o aproximar el proceso de capacitación internamente.

Posibles casos de uso en entornos empresariales

Para las empresas que desarrollan sistemas de IA agentes, especialmente en entornos que requieren una planificación paulatino, como la automatización de TI, la atención al cliente o las interacciones en límite, EAGLET ofrece una plantilla sobre cómo incorporar la planificación sin escazes de retornar a capacitarse. Su capacidad para gobernar modelos de código extenso y cerrado, anejo con su método de capacitación capaz, puede convertirlo en un punto de partida atractivo para los equipos que buscan mejorar el desempeño de los agentes con una sobrecarga mínima.

Related Posts

El nuevo maniquí de codificación de Cursor, Composer 2, ya está aquí: supera a Claude Opus 4.6 pero aún está por detrás de GPT-5.4

Cursor, una plataforma de codificación de IA de San Francisco de la startup Anysphere valorado en 29.300 millones de dólaresha valiente Compositor 2un nuevo maniquí de codificación interno ahora acondicionado…

Una película muy dura condujo a una investigación del FBI en la vida vivo

Zorro del siglo XX Verdaderamente no hay meta para la investigación que puede realizar un escritor; de hecho, cuanto más, mejor. El…

You Missed

Polémica por limitación de María Cristina Camilo en “In Memoriam” – Remolacha

Polémica por limitación de María Cristina Camilo en “In Memoriam” – Remolacha

El nuevo maniquí de codificación de Cursor, Composer 2, ya está aquí: supera a Claude Opus 4.6 pero aún está por detrás de GPT-5.4

El nuevo maniquí de codificación de Cursor, Composer 2, ya está aquí: supera a Claude Opus 4.6 pero aún está por detrás de GPT-5.4

Seis de cada diez adultos mayores en la frontera tienen 65 y 74 abriles

Seis de cada diez adultos mayores en la frontera tienen 65 y 74 abriles

Una película muy dura condujo a una investigación del FBI en la vida vivo

Una película muy dura condujo a una investigación del FBI en la vida vivo

Un día a posteriori del Soberano, hay críticas, aplausos, risas y celebración

Un día a posteriori del Soberano, hay críticas, aplausos, risas y celebración

Estados Unidos y República Dominicana unen fuerzas contra narcoterrorismo – Remolacha

Estados Unidos y República Dominicana unen fuerzas contra narcoterrorismo – Remolacha