AgentEvolver de Alibaba aumenta el rendimiento del maniquí en el uso de herramientas en aproximadamente un 30 % mediante tareas sintéticas generadas automáticamente

Investigadores del Tongyi Lab de Alibaba han desarrollado un nuevo entorno para agentes autoevolucionantes que crean sus propios datos de entrenamiento explorando sus entornos de aplicaciones. El entorno, AgenteEvolverutiliza el conocimiento y las capacidades de razonamiento de grandes modelos de idioma para el educación autónomo, abordando los altos costos y el esfuerzo manual que normalmente se requiere para compendiar conjuntos de datos de tareas específicas.

Los experimentos muestran que, en comparación con los marcos tradicionales basados en el educación por refuerzo, AgentEvolver es más válido a la hora de explorar su entorno, hace un mejor uso de los datos y se adapta más rápido a los entornos de aplicaciones. Para las empresas, esto es importante porque reduce la barrera para capacitar a los agentes para aplicaciones personalizadas, haciendo que los asistentes de IA personalizados y potentes sean más accesibles para una viso más amplia de organizaciones.

El parada coste de formar agentes de IA

Formación por refuerzo se ha convertido en un canon importante para capacitar a los LLM para que actúen como agentes que puedan interactuar con entornos digitales y ilustrarse de la feedback. Sin secuestro, el avance de agentes con RL enfrenta desafíos fundamentales. En primer ocupación, compendiar los conjuntos de datos de capacitación necesarios suele ser prohibitivamente costoso y requiere una gran cantidad de trabajo manual para crear ejemplos de tareas, especialmente en entornos de software novedosos o propietarios donde no hay conjuntos de datos disponibles en el mercado.

En segundo ocupación, las técnicas de RL comúnmente utilizadas para los LLM requieren que el maniquí se ejecute a través de una gran cantidad de intentos de prueba y error para ilustrarse de modo efectiva. Este proceso es computacionalmente costoso e ineficiente. Como resultado, capacitar a agentes LLM capaces a través de RL sigue siendo afanoso y costoso, lo que limita su implementación en entornos empresariales personalizados.

Cómo funciona AgentEvolver

La idea principal detrás de AgentEvolver es dar a los modelos maduro autonomía en su propio proceso de educación. Los investigadores lo describen como un “sistema de agentes autoevolutivos” diseñado para “obtener una proceso de capacidades autónoma y válido a través de la interacción ambiental”. Utiliza el poder de razonamiento de un LLM para crear un ciclo de autoformación, lo que permite al agente mejorar continuamente interactuando directamente con su entorno objetivo sin carestia de tareas predefinidas o funciones de premio.

“Imaginamos un sistema de agentes en el que el LLM piloto activamente la exploración, la coexistentes de tareas y el refinamiento del rendimiento”, escribieron los investigadores en su papel.

El proceso de autoevolución está impulsado por tres mecanismos centrales que funcionan juntos.

El primero es autocuestionamientodonde el agente explora su entorno para descubrir los límites de sus funciones e identificar estados avíos. Es como un nuevo beneficiario que hace clic en una aplicación para ver qué es posible. Con colchoneta en esta exploración, el agente genera su propio conjunto diverso de tareas que se alinean con las preferencias generales del beneficiario. Esto reduce la carestia de conjuntos de datos hechos a mano y permite que el agente y sus tareas coevolucionen, permitiéndole progresivamente manejar desafíos más complejos.

Según Yunpeng Zhai, investigador de Alibaba y coautor del artículo, que habló con VentureBeat, el mecanismo de autocuestionamiento convierte efectivamente al maniquí de un “consumidor de datos a un productor de datos”, reduciendo drásticamente el tiempo y el costo necesarios para implementar un agente en un entorno propietario.

El segundo mecanismo es auto-navegaciónque mejoramiento la eficiencia de la exploración al reutilizar y universalizar experiencias pasadas. AgentEvolver extrae información de intentos exitosos y fallidos y la utiliza para gobernar acciones futuras. Por ejemplo, si un agente intenta utilizar una función API que no existe en una aplicación, lo registra como una experiencia y aprende a realizar la existencia de funciones ayer de intentar utilizarlas en el futuro.

El tercer mecanismo, autoatribuyéndosemejoramiento la eficiencia del educación al proporcionar comentarios más detallados. En ocupación de simplemente una señal final de éxito o fracaso (una destreza popular en RL que puede resultar en recompensas escasas), este mecanismo utiliza un LLM para evaluar la contribución de cada batalla individual en una tarea de varios pasos. Determina retrospectivamente si cada paso contribuyó positiva o negativamente al resultado final, brindando al agente feedback detallada que acelera el educación.

Esto es crucial para las industrias reguladas donde la forma en que un agente resuelve un problema es tan importante como el resultado. “En ocupación de retribuir a un estudiante sólo por la respuesta final, asimismo evaluamos la claridad y corrección de cada paso de su razonamiento”, explicó Zhai. Esto mejoramiento la transparencia y anima al agente a adoptar patrones de resolución de problemas más sólidos y auditables.

“Al cambiar la iniciativa de capacitación de procesos diseñados por humanos a la superación personal guiada por un LLM, AgentEvolver establece un nuevo canon que allana el camino cerca de sistemas inteligentes escalables, rentables y en continua mejoramiento”, afirman los investigadores.

El equipo asimismo ha desarrollado un entorno de capacitación práctico de extremo a extremo que integra estos tres mecanismos. Una parte secreto de esta fundación es la Administrador de contextoun componente que controla la memoria del agente y el historial de interacciones. Si acertadamente los puntos de relato actuales prueban una cantidad limitada de herramientas, los entornos empresariales reales pueden involucrar miles de API.

Zhai reconoce que este es un desafío fundamental para el campo, pero señala que AgentEvolver fue diseñado para ampliarse. “La recuperación en espacios de batalla extremadamente grandes siempre presentará desafíos computacionales, pero la inmueble de AgentEvolver proporciona un camino claro cerca de el razonamiento de herramientas escalables en entornos empresariales”, dijo.

Un camino más válido cerca de la formación de agentes

Para valorar la capacidad de su entorno, los investigadores lo probaron en Mundo de aplicaciones y BFCL v3dos puntos de relato que requieren que los agentes realicen tareas largas y de varios pasos utilizando herramientas externas. Usaron modelos de Alibaba Comunidad Qwen2.5 (parámetros 7B y 14B) y compararon su desempeño con un maniquí de relato entrenado con GRPO, una técnica de RL popular utilizada para desarrollar modelos de razonamiento como DeepSeek-R1.

Los resultados mostraron que la integración de los tres mecanismos en AgentEvolver condujo a mejoras sustanciales en el rendimiento. Para el maniquí 7B, la puntuación promedio mejoró un 29,4% y para el maniquí 14B, aumentó un 27,8% con respecto a la cuerda de colchoneta. El entorno mejoró consistentemente las capacidades de razonamiento y ejecución de tareas de los modelos en los dos puntos de relato. La mejoramiento más significativa provino del módulo de autocuestionamiento, que genera de forma autónoma diversas tareas de capacitación y aborda directamente el problema de la escasez de datos.

Los experimentos asimismo demostraron que AgentEvolver puede sintetizar de modo válido un gran barriguita de datos de entrenamiento de incorporación calidad. Las tareas generadas por el módulo de autocuestionamiento resultaron ser lo suficientemente diversas como para obtener una buena eficiencia en el entrenamiento incluso con una pequeña cantidad de datos.

Para las empresas, esto proporciona un camino para crear agentes para aplicaciones personalizadas y flujos de trabajo internos, al tiempo que minimiza la carestia de anotaciones manuales de datos. Al proporcionar objetivos de parada nivel y permitir que el agente genere sus propias experiencias de capacitación, las organizaciones pueden desarrollar asistentes de IA personalizados de modo más simple y rentable.

“Esta combinación de diseño algorítmico y pragmática de ingeniería posiciona a AgentEvolver como un transporte de investigación y una colchoneta reutilizable para construir agentes adaptables mejorados con herramientas”, concluyen los investigadores.

De cara al futuro, el objetivo final es mucho maduro. “Un efectivo ‘maniquí singular’ que pueda introducirse en cualquier entorno de software y dominarlo de la tenebrosidad a la mañana es sin duda el santo comunión de la IA agente”, afirmó Zhai. “Consideramos que AgentEvolver es un paso necesario en esa dirección”. Si acertadamente ese futuro todavía requiere avances en el razonamiento de los modelos y en la infraestructura, los enfoques que evolucionan por sí solos están allanando el camino.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

AgentEvolver de Alibaba aumenta el rendimiento del maniquí en el uso de herramientas en aproximadamente un 30 % mediante tareas sintéticas generadas automáticamente

El parada coste de formar agentes de IA

Cómo funciona AgentEvolver

Un camino más válido cerca de la formación de agentes

ztevenreal

Related Posts

Los empleados tuvieron que sujetar a un androide humanoide que bailaba a posteriori de que se volvió alienado en un restaurante de California.

Los nuevos auriculares WF-1000XM6 de Sony ya están a la saldo con un descuento de 30 dólares

You Missed

Indignidad

La marca Elizabeth Arden inaugura su tienda boutique en Museo 360

Los empleados tuvieron que sujetar a un androide humanoide que bailaba a posteriori de que se volvió alienado en un restaurante de California.

Nueva cédula no incluye presente domicilio | AlMomento.net

ETED dará mantenimiento a recta de transmisión 69 kV Sabaneta – San Juan, este viernes

Partido dominicano tilda de imperialista embestida a Irán | AlMomento.net