
Los agentes creados sobre los modelos actuales a menudo fallan con cambios simples (una nueva biblioteca, una modificación del flujo de trabajo) y requieren un ingeniero humano para solucionarlo. Ese es uno de los desafíos más persistentes en la implementación de IA para la empresa: crear agentes que puedan adaptarse a entornos dinámicos sin un apoyo constante. Si aceptablemente los modelos actuales son poderosos, en gran medida son estáticos.
Para topar esto, investigadores de la Universidad de California en Santa Bárbara han desarrollado Agentes que evolucionan en grupos (GEA), un nuevo entorno que permite a grupos de agentes de IA cambiar juntos, compartir experiencias y reutilizar sus innovaciones para mejorar de forma autónoma con el tiempo.
En experimentos sobre tareas complejas de codificación e ingeniería de software, GEA superó sustancialmente a los marcos de trabajo de mejoría cibernética existentes. Quizás lo más trascendente para los tomadores de decisiones empresariales fue que el sistema evolucionó de forma autónoma agentes que igualaron o superaron el rendimiento de los marcos minuciosamente diseñados por expertos humanos.
Las limitaciones de la desarrollo del ‘lobo solitario’
La mayoría existente sistemas de IA agentes esperar en arquitecturas fijas diseñadas por ingenieros. Estos sistemas a menudo luchan por ir más allá de los límites de capacidad impuestos por sus diseños iniciales.
Para resolver esto, los investigadores han buscado durante mucho tiempo crear agentes autoevolucionantes que puedan modificar de forma autónoma su propio código y estructura para exceder sus límites iniciales. Esta capacidad es esencial para manejar entornos abiertos donde el agente debe explorar continuamente nuevas soluciones.
Sin requisa, los enfoques actuales de la autoevolución tienen un defecto estructural importante. Como señalan los investigadores en su artículo, la mayoría de los sistemas están inspirados en la desarrollo biológica y están diseñados en torno a "centrado en el individuo" procesos. Estos métodos suelen utilizar un enfoque estructurado en árbol: un único "padre" El agente se selecciona para producir descendencia, creando distintas ramas evolutivas que permanecen estrictamente aisladas unas de otras.
Este aislamiento crea un emoción de silo. Un agente de una sucursal no puede alcanzar a los datos, herramientas o flujos de trabajo descubiertos por un agente de una sucursal paralela. Si no se selecciona un género específico para la próxima vivientes, cualquier descubrimiento valioso realizado por ese agente, como una nueva aparejo de depuración o un flujo de trabajo de prueba más apto, desaparece con él.
En su artículo, los investigadores cuestionan la pobreza de atenerse a esta metáfora biológica. "Los agentes de IA no son individuos biológicos," ellos discuten. "¿Por qué su desarrollo debería seguir limitada por paradigmas biológicos?"
La inteligencia colectiva de los agentes en desarrollo de grupos
GEA cambia el muestra al tratar a un congregación de agentes, en ocupación de a un individuo, como la dispositivo fundamental de la desarrollo.
El proceso comienza seleccionando un congregación de agentes principales de un archivo existente. Para respaldar una combinación saludable de estabilidad e innovación, GEA selecciona a estos agentes basándose en una puntuación combinada de desempeño (competencia para resolver tareas) y novedad (qué tan distintas son sus capacidades de las demás).
A diferencia de los sistemas tradicionales donde un agente sólo aprende de su padre directo, GEA crea un conjunto compartido de experiencia colectiva. Este congregación contiene los rastros evolutivos de todos los miembros del congregación principal, incluidas modificaciones de código, soluciones exitosas de tareas e historiales de invocación de herramientas. Cada agente del congregación obtiene ataque a esta historia colectiva, lo que les permite instruirse de los avances y errores de sus compañeros.
Un “Módulo de Consejo”, impulsado por un maniquí de idioma de gran tamaño, analiza esta historia colectiva para identificar patrones en todo el congregación. Por ejemplo, si un agente descubre una aparejo de depuración de suspensión rendimiento mientras otro perfecciona un flujo de trabajo de prueba, el sistema extrae uno y otro conocimientos. Con saco en este observación, el sistema genera suspensión nivel. "directivas de desarrollo" que guían la creación del congregación hijo. Esto asegura que la próxima vivientes posea las fortalezas combinadas de todos sus padres, en ocupación de solo los rasgos de un solo género.
Sin requisa, este enfoque de mente colmena funciona mejor cuando el éxito es objetivo, como en las tareas de codificación. "Para dominios menos deterministas (por ejemplo, vivientes creativa), las señales de evaluación son más débiles," Zhaotian Weng y Xin Eric Wang, coautores del artículo, dijeron a VentureBeat en comentarios escritos. "Compartir ciegamente resultados y experiencias puede ocasionar experiencias de herido calidad que actúan como ruido. Esto sugiere la pobreza de mecanismos de filtrado de experiencias más sólidos." para tareas subjetivas.
GEA en hecho
Los investigadores probaron GEA contra la saco contemporáneo de desarrollo cibernética de última vivientes, la Máquina de Darwin Gódel (DGM), sobre dos puntos de remisión rigurosos. Los resultados demostraron un brinco masivo en la capacidad sin aumentar la cantidad de agentes utilizados.
Este enfoque colaborativo además hace que el sistema sea más sólido contra fallas. En sus experimentos, los investigadores rompieron intencionalmente agentes inyectando errores manualmente en sus implementaciones. GEA pudo reparar estos errores críticos en un promedio de 1,4 iteraciones, mientras que la lista saco requirió 5 iteraciones. El sistema aprovecha eficazmente la "saludable" miembros del congregación para diagnosticar y parchar a los comprometidos.
En SWE-bench Verified, un punto de remisión que consta de problemas reales de GitHub, incluidos errores y solicitudes de funciones, GEA logró una tasa de éxito del 71,0 %, en comparación con el 56,7 % de la saco. Esto se traduce en un aumento significativo en el rendimiento de la ingeniería autónoma, lo que significa que los agentes son mucho más capaces de manejar el mantenimiento del software en el mundo actual. De modo similar, en Polyglot, que prueba la vivientes de código en diversos lenguajes de programación, GEA logró un 88,3 % frente al 68,3 % de la lista saco, lo que indica una reincorporación adaptabilidad a diferentes pilas de tecnología.
Para los equipos de I+D de las empresas, el hallazgo más importante es que GEA permite que la IA se diseñe a sí misma con tanta capacidad como los ingenieros humanos. En SWE-bench, la tasa de éxito del 71,0% de GEA coincide efectivamente con el desempeño de Manos Abiertasel principal entorno de código destapado diseñado por humanos. En Polyglot, GEA superó significativamente a Aider, un popular asistente de codificación, que logró un 52,0%. Esto sugiere que las organizaciones pueden eventualmente ceñir su dependencia de grandes equipos de ingenieros rápidos para modificar los marcos de los agentes, ya que los agentes pueden metaaprender estas optimizaciones de forma autónoma.
Esta eficiencia se extiende a la encargo de costes. "GEA es explícitamente un sistema de dos etapas: (1) desarrollo del agente, luego (2) inferencia/despliegue," dijeron los investigadores. "Posteriormente de la desarrollo, se implementa un único agente evolucionado… por lo que el costo de inferencia empresarial esencialmente no cambia en comparación con una configuración estereotipado de un solo agente."
El éxito de GEA se debe en gran medida a su capacidad para consolidar mejoras. Los investigadores rastrearon innovaciones específicas inventadas por los agentes durante el proceso evolutivo. En el enfoque central, a menudo aparecían herramientas valiosas en ramas aisladas, pero no lograban propagarse porque esos linajes específicos terminaron. En GEA, el maniquí de experiencia compartida garantizó que estas herramientas fueran adoptadas por los agentes con mejor desempeño. El principal agente de GEA integró rasgos de 17 ancestros únicos (que representan el 28% de la población), mientras que el mejor agente de remisión integró rasgos de sólo 9. De hecho, GEA crea un "superempleado" que posee las mejores prácticas combinadas de todo el congregación.
"Un flujo de trabajo en producción inspirado en GEA permitiría a los agentes intentar primero algunas soluciones independientes cuando se produzcan fallas." explicaron los investigadores sobre esta capacidad de autocuración. "Un agente de consejo (normalmente impulsado por un maniquí de saco sólida) puede luego resumir los resultados… y enfilar una modernización más completa del sistema."
Por otra parte, las mejoras descubiertas por GEA no están vinculadas a un maniquí subyacente específico. Los agentes que evolucionaron utilizando un maniquí, como Claude, mantuvieron sus mejoras de rendimiento incluso cuando el motor subyacente se cambió a otra grupo de modelos, como GPT-5.1 o GPT-o3-mini. Esta transferibilidad ofrece a las empresas la flexibilidad de cambiar de proveedor de modelos sin perder las optimizaciones arquitectónicas personalizadas que sus agentes han aprendido.
Para industrias con requisitos de cumplimiento estrictos, la idea de un código automodificable puede parecer arriesgada. Para topar esto, los autores dijeron: "Esperamos que las implementaciones empresariales incluyan barreras de seguridad no evolucionables, como ejecución en espacio eventual, restricciones de políticas y capas de comprobación."
Si aceptablemente los investigadores planean divulgar el código oficial pronto, los desarrolladores ya pueden comenzar a implementar conceptualmente la edificación GEA sobre los marcos de agentes existentes. El sistema requiere tres adiciones esencia a una pila de agentes estereotipado: un “archivo de experiencia” para acumular rastros evolutivos, un “módulo de consejo” para analizar patrones de congregación y un “módulo de modernización” que permite al agente modificar su propio código en función de esos conocimientos.
De cara al futuro, el entorno podría democratizar el explicación liberal de agentes. "Una dirección prometedora son las tuberías de desarrollo híbrida," los investigadores dijeron, "donde los modelos más pequeños exploran temprano para acumular diversas experiencias, y los modelos más fuertes luego guían la desarrollo utilizando esas experiencias."






