El nuevo método de capacitación de IA crea poderosos agentes de software con solo 78 ejemplos

Un nuevo estudio de Universidad de Shanghai Jiao Tong y SII Generativo AI Research Lab (Gair) muestra que la capacitación de modelos de idiomas grandes (LLM) para tareas complejas y autónomas no requiere conjuntos de datos masivos.

Su ámbito, Limi (Menos es más para la agencia inteligente), se basamento en un trabajo similar en otras áreas de la investigación de LLM y encuentra que “la autonomía de la máquina no emerge de la prodigalidad de datos sino de la curación estratégica de demostraciones de agente de reincorporación calidad”.

En otras palabras, son datos calidadno cantidadeso importa.

En experimentos, los investigadores encontraron que con un Pequeño, pero cuidadosamente curado, conjunto de datos de solo 78 ejemplos, podrían capacitar a los LLM para exceder a los modelos capacitados en miles de ejemplos por un ganancia considerable en los puntos de narración secreto de la industria.

Este descubrimiento podría tener implicaciones importantes para las aplicaciones empresariales donde los datos son escasos o costosos de resumir.

El desafío de construir agentes que funcionan

Los investigadores definen la agencia como “la capacidad emergente de los sistemas de IA para funcionar como agentes autónomos, descubriendo activos problemas, formulando hipótesis y ejecutando soluciones a través de la décimo autodirigida con entornos y herramientas”. En otras palabras, estos son sistemas de IA que “no solo piensan, sino que funcionan”.

El problema es que los marcos de capacitación actuales suponen que una viejo inteligencia de agente requiere muchos datos, como se ha demostrado en las leyes clásicas de escalera del modelado de idiomas. Los investigadores argumentan que este enfoque conduce a tuberías de capacitación cada vez más complejas y requisitos sustanciales de bienes. Por otra parte, en muchas áreas, los datos no son abundantes, difíciles de obtener y muy costosos de curar.

Sin confiscación, la investigación en otros dominios sugiere que no necesariamente requiere más datos para obtener objetivos de capacitación en la capacitación de LLM.

Por ejemplo, Fresaun artículo 2023 mostró que un maniquí podría estar efectivamente simpatizante con solo 1,000 ejemplos curados. Más recientemente, Limusina demostró que el razonamiento matemático confuso podría surgir de solo 817 muestras de entrenamiento.

Con Limi, los investigadores buscaron aplicar el mismo principio “menos es más” al confuso mundo de los agentes de IA.

Cómo funciona Limi

El ámbito LIMI demuestra que la inteligencia agente sofisticada puede surgir de demostraciones mínimas pero estratégicas de comportamiento autónomo. La secreto del ámbito es una tubería para cosechar demostraciones de reincorporación calidad de tareas de agente.

Cada demostración consta de dos partes: una consulta y una trayectoria. Una consulta es una solicitud de habla natural de un favorecido, como un requisito de explicación de software o un objetivo de investigación científica.

La trayectoria es la serie de pasos que toma la IA para acometer la consulta, incluido su razonamiento interno, sus llamadas a herramientas externas como un intérprete de código y las observaciones que recibe del entorno. Por ejemplo, una consulta podría ser "Cree una aplicación de chat simple," y la trayectoria incluiría el plan de razonamiento interno y de bono del agente, el código que escribe y ejecuta, y la salida o errores resultantes.

La trayectoria podría incluir múltiples iteraciones de planificación, ejecución y advertencia hasta que logre el objetivo deseado.

Para construir su conjunto de datos, los investigadores comenzaron con 60 consultas de escenarios del mundo efectivo que enfrentan desarrolladores e investigadores profesionales. Luego ampliaron este agrupación usando GPT-5 Para sintetizar consultas adicionales de las solicitudes de cuna de GitHub.

Emplearon a un equipo de cuatro estudiantes de doctorado en ciencias de la computación para examinar la calidad de estas consultas y designar 18 ejemplos para crear un conjunto de 78 consultas de reincorporación calidad centrados en el explicación de software y los flujos de trabajo de investigación.

Para producir las trayectorias, los mismos estudiantes de doctorado colaboraron con un agente de codificación CLI impulsado por GPT-5 para completar las 78 tareas.

Siguieron un proceso iterativo, recolectando toda la secuencia de interacción hasta que cada tarea se completó con éxito, capturando el portería completo de la colaboración realista de Human-AI, incluida la comunicación de ida y envés y el refinamiento iterativo. Para las consultas más complejas, las trayectorias recolectadas podrían tenderse a más de 152,000 tokens.

“Este enfoque garantiza que nuestros modelos aprendan no solo de resultados exitosos sino todavía del proceso completo de resolución de problemas, incluida la forma de adaptar las estrategias y recuperarse de las fallas durante la ejecución colaborativa”, escriben los investigadores.

Limi en bono

Para probar su ámbito, el equipo evaluó modelos en Bandada de agenciaun punto de narración diseñado para determinar habilidades de agente, así como otros puntos de narración establecidos para el uso y codificación de herramientas.

Ellos afinaban GLM-4.5un poderoso maniquí de código despejado, utilizando su conjunto de datos de 78 muestras y comparó su rendimiento con varios modelos fronterizos, incluido el GLM-4.5 cojín, Me gusta-k2-instructoy Deepseek-v3.1. El maniquí capacitado en LIMI logró un puntaje promedio de 73.5% en Agency Bench, superando significativamente todos los modelos de narración, el mejor de los cuales (GLM-4.5) obtuvo un 45.1%.

Esta superioridad se extendió a otros puntos de narración que cubren el uso de la útil, la codificación y la computación científica, donde Limi todavía superó a todas las líneas de cojín.

Más importante aún, el estudio mostró que el maniquí entrenado en solo 78 ejemplos superiores a los modelos superiores a los de 10,000 muestras de otro conjunto de datos, entregando rendimiento superior con 128 veces menos datos.

“Este descubrimiento reforma fundamentalmente la forma en que desarrollamos sistemas de IA autónomos, lo que sugiere que la agencia de dominio requiere comprender su esencia, no ascender datos de capacitación”, escriben los investigadores. “A medida que las industrias hacen la transición de pensar en la IA de trabajo, Limi proporciona un dechado para el cultivo sostenible de inteligencia verdaderamente agente”.

Los investigadores han publicado el código para la síntesis y entrenamiento de datos y mancuerna de modelos. Para la empresa, este enfoque ofrece un camino práctico en dirección a el explicación de agentes de IA en gran medida especializados.

En área de emprender proyectos masivos de resumen de datos, las organizaciones pueden utilizar sus expertos internos de talento y materia para crear pequeños conjuntos de datos de reincorporación calidad para tareas de agente a medida. Esto reduce la barrera de entrada y permite a las empresas construir agentes de IA personalizados que puedan proporcionar una delantera competitiva en los flujos de trabajo que más les importan.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

El nuevo método de capacitación de IA crea poderosos agentes de software con solo 78 ejemplos

El desafío de construir agentes que funcionan

Cómo funciona Limi

Limi en bono

ztevenreal

Related Posts

Referencia: La dietario antivacunas de RFK Jr. se frena cuando el Partido Republicano se da cuenta de que es impopular

El 50% del mercado de plegables de EE. UU. pertenece a una marca y no es Samsung

You Missed

EE. UU. examen la extradición de Alex Saab desde Venezuela

Morosidad de tarjetas de crédito sube al 5.8% al cerradura de 2025

Producción agrícola dominicana supera el consumo en algunos alimentos

Yesenia Then fuego a tratar mejor a la tribu: “No lleves los ‘retrojos’ a tu casa”

Referencia: La dietario antivacunas de RFK Jr. se frena cuando el Partido Republicano se da cuenta de que es impopular

Empleo de Lozanía introduce vacuna nonavalente contra el VPH para niños