GEPA optimiza LLM sin un enseñanza de refuerzo costoso

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora

Investigadores del Universidad de California, Berkeley, Universidad de Stanford y Databricks han introducido un nuevo método de optimización de IA llamado Cortar Eso supera significativamente las técnicas de enseñanza de refuerzo tradicional (RL) para adaptar modelos de idiomas grandes (LLM) a tareas especializadas.

GEPA elimina el pauta popular del enseñanza a través de miles de intentos de prueba y error guiados por puntajes numéricos simples. En cambio, utiliza la comprensión del idioma de un LLM para reflexionar sobre su rendimiento, diagnosticar errores y transformarse iterativamente sus instrucciones. Adicionalmente de ser más precisos que las técnicas establecidas, GEPA es significativamente más valioso, logrando resultados superiores con hasta 35 veces menos pruebas.

Para las empresas que construyen agentes y flujos de trabajo de IA complejos, esto se traduce directamente en ciclos de explicación más rápidos, costos computacionales sustancialmente más bajos y aplicaciones más perfectivas y confiables.

El stop costo de optimizar los sistemas de IA modernos

Las aplicaciones modernas de IA empresariales rara vez son una sola citación a un LLM. A menudo son “sistemas de IA compuestos”, flujos de trabajo complejos que encadenan módulos de LLM múltiples, herramientas externas como bases de datos o intérpretes de código y deducción personalizada para realizar tareas sofisticadas, incluidas la investigación de múltiples pasos y el prospección de datos.

AI Scaling alcanza sus límites

Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:

Convertir la energía en una superioridad estratégica

Construcción de inferencia valioso para ganancias reales de rendimiento

Desbloquear ROI competitivo con sistemas de IA sostenibles

Asegure su ocupación para mantenerse a la vanguardia: https://bit.ly/4mwgngo

Una forma popular de optimizar estos sistemas es a través de métodos de enseñanza de refuerzo.como el asociación de optimización de políticas relativas (GRPO), una técnica empleada en modelos de razonamiento populares, que incluyen Deepseek-r1. Este método manejo el sistema como una caja negra; Ejecuta una tarea, obtiene una métrica de éxito simple (una “galardón progresar”, como una puntuación de 7/10), y usa esta feedback para empujar lentamente los parámetros del maniquí en la dirección correcta.

El principal inconveniente de RL es su ineficiencia de muestra. Para cultivarse de forma efectiva de estos puntajes numéricos escasos, los métodos RL a menudo requieren decenas de miles, o incluso cientos de miles, de pruebas, conocidas como “despliegos”. Para cualquier aplicación empresarial del mundo existente que involucre llamadas de herramientas costosas (por ejemplo, consultas de API, compilación de código) o utiliza modelos propietarios potentes, este proceso es prohibitivamente moroso y costoso.

Como dijo Lakshya A Agrawal, coautor del informe y estudiante de doctorado en UC Berkeley, VentureBeat, esta complejidad es una barrera importante para muchas empresas. “Para muchos equipos, RL no es práctico adecuado a su costo y complejidad, y su enfoque de narración hasta ahora a menudo sería una ingeniería rápida a mano”, dijo Agrawal. Señaló que GEPA está diseñado para equipos que necesitan optimizar los sistemas construidos en modelos de primer nivel que a menudo no se pueden ajustar, lo que les permite mejorar el rendimiento sin establecer grupos de GPU personalizados.

Los investigadores enmarcan este desafío de la sucesivo forma: “¿Cómo podemos extraer una señal de enseñanza máxima de cada despliegue costoso para permitir una amoldamiento efectiva de sistemas de IA complejos y modulares en entornos bajos o limitados con presupuesto?”

Un optimizador que aprende con el idioma

Fuente del situación GEPA: ARXIV

GEPA (Genetic-Pareto) es un optimizador rápido que aborda este desafío al reemplazar las recompensas dispersas con la feedback rica en idioma natural. Aprovecha el hecho de que toda la ejecución de un sistema de IA (incluidos sus pasos de razonamiento, llamadas de herramientas e incluso mensajes de error) se puede serializar en un texto que un LLM puede acertar y comprender. La metodología de GEPA se sostén en tres pilares centrales.

Primero es la “progreso indicada genética”, donde GEPA manejo a una población de indicaciones como un conjunto de genes. Iterativamente “muta” solicita crear nuevas versiones potencialmente mejores. Esta mutación es un proceso inteligente impulsado por el segundo pilar: “Advertencia con la feedback del idioma natural”. Luego de algunos despliegue, GEPA proporciona un LLM con la traza de ejecución completa (lo que el sistema intentó hacer) y el resultado (lo que salió aceptablemente o mal). El LLM luego “refleja” esta feedback en el idioma natural para diagnosticar el problema y escribir un aviso mejorado y más detallado. Por ejemplo, en ocupación de solo ver una puntuación quebranto en una tarea de coexistentes de código, podría analizar un error del compilador y concluir que el mensaje necesita especificar una lectura de biblioteca en particular.

El tercer pilar es “selección basada en Pareto”, que garantiza una exploración inteligente. En ocupación de centrarse solo en el único mensaje de mejor rendimiento, lo que puede admitir a quedarse atascado en una decisión subóptima (un “magnífico regional”), GEPA mantiene una índice diversa de indicaciones “especialistas”. Se rastrea lo que solicita mejor en diferentes ejemplos individuales, creando una índice de los principales candidatos. Al probar este conjunto diverso de estrategias ganadoras, GEPA asegura que explora más soluciones y es más probable que descubra un aviso que se generaliza aceptablemente en una amplia grado de entradas.

Pretender un solo mejor candidato (izquierda) puede hacer que los modelos se estancen en los mínimos locales, mientras que la selección de Pareto (derecha) puede explorar más opciones y encontrar soluciones óptimas Fuente: ARXIV

La efectividad de todo este proceso depende de lo que los investigadores llaman “ingeniería de feedback”. Agrawal explica que la secreto es superficial de los detalles textuales ricos que los sistemas ya producen pero que a menudo se descartan. “Las tuberías tradicionales a menudo reducen este detalle a una sola galardón numérica, oscureciendo por qué ocurren resultados particulares”, dijo. “La explorador central de GEPA es disponer la feedback que superficie no solo los resultados sino además las trayectorias y errores intermedios en el texto plano, la misma evidencia que un humano usaría para diagnosticar el comportamiento del sistema”.

Por ejemplo, para un sistema de recuperación de documentos, esto significa enumerar qué documentos se recuperaron correctamente y que se perdieron, en ocupación de calcular solo un puntaje final.

GEPA en batalla

Los investigadores evaluaron GEPA en cuatro tareas diversas, incluidas las preguntas de preguntas múltiples (hotpotqa) y consultas de preservación de la privacidad (Pupa). Utilizaron modelos de código rajado (QWEN3 8B) y patentado (GPT-4.1 mini), comparando GEPA con el GRPO basado en RL y el optimizador de aviso de última coexistentes MIPROV2.

En todas las tareas, GEPA superó sustancialmente a GRPO, logrando un puntaje hasta un 19% más stop mientras usa hasta 35 veces menos despliegos. Agrawal proporcionó un ejemplo concreto de esta rendimiento de eficiencia: “Utilizamos GEPA para optimizar un sistema de control de calidad en ~ 3 horas frente a las 24 horas de GRPO, una reducción de 8x en el tiempo de explicación, al tiempo que logramos un rendimiento 20% más stop”, explicó. “La optimización basada en RL del mismo círculo en nuestra prueba cuesta cerca de de $ 300 en el tiempo de GPU, mientras que GEPA costó menos de $ 20 por mejores resultados: 15 veces ahorros en nuestros experimentos”.

GEPA supera a otras líneas de pulvínulo en puntos de narración secreto Fuente: ARXIV

Más allá del rendimiento bruto, los investigadores encontraron que los sistemas optimizados por GEPA son más confiables cuando se enfrentan a datos nuevos e invisibles. Esto se mide por la “brecha de universalización” (la diferencia entre el rendimiento en los datos de entrenamiento y los datos de la prueba final). Agrawal plantea la hipótesis de que esto se debe a que GEPA aprende de comentarios más ricos. “La beocio brecha de universalización de GEPA puede derivarse del uso de la feedback rica en el idioma natural sobre cada resultado (lo que funcionó, qué falló y por qué, en ocupación de abandonarse nada más en una galardón progresar”, dijo. “Esto puede alentar al sistema a desarrollar instrucciones y estrategias basadas en una comprensión más amplia del éxito, en ocupación de simplemente cultivarse patrones específicos de los datos de capacitación”. Para las empresas, esta confiabilidad mejorada significa aplicaciones de IA menos frágiles y más adaptables en los roles orientados al cliente.

Un beneficio práctico importante es que las indicaciones basadas en instrucciones de GEPA son hasta 9.2 veces más cortas que las indicaciones producidas por optimizadores como MIPROV2, que incluyen muchos ejemplos de pocos disparos. Las indicaciones más cortas disminuyen la latencia y reducen los costos de los modelos basados en API. Esto hace que la aplicación final sea más rápida y permuta de la producción.

El documento además presenta resultados prometedores para utilizar GEPA como una táctica de búsqueda de “tiempo de inferencia”, transformando la IA de un alternador de respuesta única en un solucionador de problemas iterativo. Agrawal describió un círculo en el que GEPA podría integrarse en la tubería CI/CD de una empresa. Cuando se compromete un nuevo código, GEPA podría producir y refinar automáticamente múltiples versiones optimizadas, probarlas para su rendimiento y brindar una solicitud de ascendencia con la transformación de mejor rendimiento para que los ingenieros lo revisen. “Esto convierte la optimización en un proceso continuo y automatizado, generando soluciones que a menudo coinciden o superan el ajuste de manos de expertos”, señaló Agrawal. En sus experimentos sobre la coexistentes de código CUDA, este enfoque aumentó el rendimiento del 20% de las tareas a un nivel de hábil, en comparación con el 0% para un intento de solo disparo de GPT-4O.

Los autores del artículo creen que GEPA es un paso fundamental en dirección a un nuevo pauta del explicación de la IA. Pero más allá de crear una IA más humana, su impacto más inmediato puede ser en quién puede construir sistemas de stop rendimiento.

“Esperamos que GEPA permita un cambio positivo en la construcción del sistema de IA, lo que hace la optimización de tales sistemas accesibles por los usuarios finales, que a menudo tienen la experiencia de dominio relevante para la tarea, pero no necesariamente el tiempo y la voluntad de cultivarse detalles de RL complejos”, dijo Agrawal. “Da poder directamente a las partes interesadas con el conocimiento exacto de dominio específico de la tarea”.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu principal, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.