
Investigadores de Cirro de Google y UCLA han propuesto un nuevo ámbito de estudios por refuerzo que progreso significativamente la capacidad de los modelos de jerga para educarse tareas de razonamiento de varios pasos muy desafiantes. Estudios por refuerzo supervisado (SRL) reformula la resolución de problemas como una secuencia de “acciones” lógicas, proporcionando ricas señales de estudios durante el proceso de capacitación.
Este enfoque permite que modelos más pequeños aprendan problemas complejos que ayer estaban fuera del difusión de otras técnicas de entrenamiento comunes. Los experimentos muestran que SRL no solo sobresale en los puntos de remisión de razonamiento matemático sino que incluso se generaliza de guisa efectiva a tareas de ingeniería de software agentes.
SRL es un ámbito de capacitación versátil que puede elevar modelos más pequeños y menos costosos a mayores capacidades de razonamiento.
Los límites de la flagrante formación de razonamiento LLM
Los avances recientes en el entrenamiento de modelos de jerga grandes (LLM) para el razonamiento han sido impulsados en gran medida por el estudios por refuerzo con recompensas verificables (RLVR), un método en el que un maniquí es recompensado en función de la exactitud de su respuesta final. Al intentar repetidamente resolver problemas y obtener feedback sobre el resultado final, el maniquí aprende gradualmente estrategias efectivas para la resolución de problemas.
Sin bloqueo, el éxito de este enfoque basado en resultados depende de la capacidad del maniquí para descubrir una opción correcta adentro de un número prohibido de intentos, o "lanzamientos." Entregado que cada implementación es computacionalmente costosa, los modelos no pueden probarse indefinidamente. Este método choca contra una albarrada cuando los problemas son tan difíciles que el maniquí rara vez, o nunca, encuentra la respuesta correcta adentro de su presupuesto.
Esto crea un cuello de botella crítico en el estudios. En muchos problemas de razonamiento de varios pasos, un maniquí puede resolver correctamente varios pasos pero descarrilarse por un solo error, lo que lleva a una respuesta incorrecta. Con RLVR, todo este esfuerzo recibe una remuneración negativa y el maniquí no aprende nadie de su trabajo parcialmente correcto. Es un enfoque de todo o nadie que no proporciona feedback granular y ofrece escasas recompensas.
Un método marginal es el ajuste fino supervisado (SFT), donde el maniquí aprende de ejemplos que contienen el proceso de razonamiento completo presentado por expertos. Si acertadamente SFT puede inculcar habilidades de razonamiento, a menudo conduce a un sobreajuste (el maniquí simplemente aprende a imitar las trayectorias en los datos de entrenamiento en circunscripción de educarse a extender a problemas más allá de los ejemplos que ha pasado). Este problema se ve agravado por el hecho de que los datos de entrenamiento de reincorporación calidad creados por humanos son escasos y costosos de producir.
Como señala el artículo, estas limitaciones dejan "una brecha crítica para entrenar pequeños modelos de código rajado para educarse efectivamente problemas difíciles."
Cómo funciona el estudios por refuerzo supervisado
SRL introduce un ámbito que reformula la resolución de problemas como un "proceso secuencial de toma de decisiones," conquistar un permanencia entre la RL pura basada en resultados y el estudios puro por imitación. En circunscripción de optimizar sólo para la respuesta final o forzar al maniquí a imitar todo el proceso de pensamiento de un hábil, SRL le enseña al maniquí a reproducir una secuencia de acciones secreto que forman la columna vertebral del razonamiento hábil. Esto permite que el maniquí aprenda a realizar acciones similares a las de un hábil mientras desarrolla su propio estilo de razonamiento interno.
En el ámbito de SRL, las demostraciones de expertos se dividen en una serie de acciones intermedias y concretas, cada una de las cuales representa un paso significativo. Para un problema matemático, una batalla podría ser una manipulación algebraica. Para un agente de ingeniería de software, podría ser un comando ejecutado en un repositorio de código. Para difundir datos de entrenamiento, SRL utiliza un potente maniquí docente para crear trayectorias de opción, que luego se utilizan para entrenar un maniquí más pequeño.
Según I-Hung Hsu, investigador investigador de Google y coautor del artículo, este enfoque intermedio es secreto para su poder en escenarios del mundo existente. "SRL se encuentra en el medio: captura la flexibilidad estructurada de la resolución de problemas del mundo existente, donde existen múltiples estrategias válidas pero incluso nociones claras de cómo se ve el “buen razonamiento” en cada paso." Hsu le dijo a VentureBeat. "Esto hace que SRL sea adecuado para dominios como la automatización de la ciencia de datos o probablemente la optimización de la condena de suministro: tareas que recompensan el razonamiento intermedio sólido en circunscripción de meras respuestas finales."
Durante el entrenamiento, el maniquí primero genera un "monólogo interior" (su proceso de razonamiento interno, encerrado en etiquetas
SRL en batalla
Los experimentos de los investigadores muestran que SRL supera significativamente las líneas de pulvínulo sólidas tanto en el razonamiento matemático desafiante como en los puntos de remisión de ingeniería de software agente. Incluso observaron que SRL fomenta patrones de razonamiento más flexibles y sofisticados en los modelos, como la planificación intercalada y la autoverificación, que mejoran la calidad de la opción sin solo ampliar los resultados.
Para los líderes empresariales, las mejoras en el desempeño sólo son valiosas si no conllevan costos desbocados. Hsu aclara que los modelos entrenados con SRL son más eficientes en su razonamiento. "Los beneficios provienen de una mejor calidad y estructura del razonamiento, no de la verbosidad," dijo. "En términos de eficiencia, los modelos entrenados con SRL están aproximadamente a la par con el maniquí pulvínulo en el uso de tokens… si acertadamente SRL no está diseñado para sujetar el costo de inferencia, logra un rendimiento de razonamiento más sólido sin aumentarlo."
Para las pruebas de matemáticas, el equipo afinó Qwen2.5-7B-Instrucción en un conjunto de datos de 1000 preguntas matemáticas difíciles. Compararon su rendimiento con modelos entrenados con SFT y RLVR (utilizando el cálculo GRPO global en modelos como DeepSeek-R1) en cuatro puntos de remisión de matemáticas a nivel de competencia. El maniquí entrenado con SRL logró un aumento sustancial del rendimiento promedio del 3,0 % en comparación con otros métodos.
El equipo amplió SRL a la ingeniería de software agente, un dominio fundamental para la automatización empresarial. Entrenaron un maniquí especializado en codificación, Qwen2.5-Coder-7B-Instrucciónen 5.000 trayectorias expertas de agentes que interactúan con un entorno de codificación. El maniquí entrenado con SRL se comparó con el maniquí pulvínulo llamativo y SWE-Gym-7B, una pulvínulo sólida ajustada con SFT. SRL logró una tasa de resolución de tareas del 14,8 %, lo que representa una progreso relativa del 74 % con respecto al maniquí basado en SFT. Esto muestra la capacidad de SRL para capacitar agentes de IA más competentes para tareas de programación complejas del mundo existente.
¿Un nuevo típico para la IA de suspensión aventura?
Los resultados más sólidos del artículo provinieron de la combinación de métodos: primero, usar SRL para enseñar razonamiento fundamental y luego usar RLVR para perfeccionar esa tiento. En sus experimentos, cuando los investigadores utilizaron SRL como pre-entrenamiento y aplicaron RLVR en el post-entrenamiento, observaron un aumento promedio del 3,7%, lo que demuestra una poderosa organización de estudios curricular.
Esto plantea la cuestión de si esto podría convertirse en un nuevo maniquí para construir IA especializada.
"Vemos a SRL como una pulvínulo sólida," Dijo Hsu. "En cierto sentido, SRL proporciona un plan de estudios (modelos de enseñanza para pensar y comportarse paso a paso) ayer de refinar esos comportamientos con estudios reforzado basado en resultados. Este enfoque de SRL primero no solo estabiliza la etapa posterior de RL, sino que incluso hace que el razonamiento sea más interpretable y generalizable, lo cual es fundamental para aplicaciones de suspensión aventura."
De cara al futuro, Hsu reconoce que ampliar este proceso aún enfrenta desafíos, en particular el suspensión costo y la complejidad del RLVR de un extremo a otro para tareas de agencia. Sin bloqueo, se muestra eufórico sobre el camino a seguir. "Si acertadamente las trayectorias de los expertos de reincorporación calidad siguen siendo importantes," él concluyó, "Creemos que el próximo gran brinco vendrá de la automatización de su reproducción y filtrado, aprovechando modelos sólidos de docentes o incluso modelos de estudiantes automejorados para difundir nuevos datos."






