Cómo la ‘RL interna’ de Google podría desbloquear agentes de IA de dilatado horizonte

Investigadores de Google han desarrollado una técnica que facilita que los modelos de IA aprendan tareas de razonamiento complejas que normalmente provocan que los LLM alucinen o se desmoronen. En sitio de entrenar a los LLM mediante la predicción del futuro token, su técnica, llamamiento educación por refuerzo interno (RL interno), dirige las activaciones internas del maniquí en torno a el mejora de una alternativa paso a paso de detención nivel para el problema de entrada.

En última instancia, esto podría proporcionar un camino escalable para crear agentes autónomos que puedan manejar razonamientos complejos y robótica del mundo existente sin indigencia de una director manual constante.

Los límites de la predicción del próximo token

Formación por refuerzo Desempeña un papel secreto en los LLM posteriores a la capacitación, particularmente para tareas de razonamiento complejas que requieren una planificación a dilatado plazo. Sin incautación, el problema radica en la bloque de estos modelos. Los LLM son autorregresivos, lo que significa que generan secuencias un token a la vez. Cuando estos modelos exploran nuevas estrategias durante el entrenamiento, lo hacen realizando pequeños cambios aleatorios en el futuro token o acto. Esto expone una demarcación más profunda: la predicción del futuro token obliga a los modelos a agenciárselas soluciones en un nivel de meditación incorrecto, lo que hace que el razonamiento a dilatado plazo sea ineficiente incluso cuando el maniquí “sabe” qué hacer.

Este enfoque token por token funciona proporcionadamente para el modelado de habla primordial, pero descompostura en tareas de dilatado horizonte donde las recompensas son escasas. Si el maniquí se sostén exclusivamente en un muestreo fortuito a nivel de token, la probabilidad de encontrar la alternativa correcta de varios pasos es infinitamente pequeña. "del orden de uno en un millón," según los investigadores.

El problema no es sólo que los modelos se confundan; es que se confunden en el nivel erróneo. En comentarios proporcionados a VentureBeat, Yanick Schimpf, coautor del artículo, señala que en una tarea de 20 pasos, un agente puede perderse en los detalles minuciosos de un solo paso o puede perder de paisaje el objetivo universal.

"Sostenemos que cuando se enfrenta un problema con alguna estructura abstracta… (exploración orientada a objetivos) es lo que se desea," Dijo Schimpf. Al resolver primero el problema en el nivel universal, el agente se compromete con una ruta, asegurándose de que no "Piérdete en uno de los pasos del razonamiento." y no logra completar el flujo de trabajo más amplio.

Para encarar esto, el campo ha mirado durante mucho tiempo en torno a el educación por refuerzo jerárquico. HRL intenta resolver problemas complejos descomponiéndolos en una subordinación de acciones temporalmente abstractas (subrutinas de detención nivel que representan diferentes etapas de la alternativa) en sitio de tramitar una tarea como una esclavitud de tokens.

Sin incautación, descubrir estas subrutinas apropiadas sigue siendo un desafío de larga data. Los métodos HRL actuales a menudo no logran descubrir políticas adecuadas, con frecuencia "convergiendo a opciones degeneradas" que no representan comportamientos significativos. Incluso los métodos modernos y sofisticados como GRPO (un popular operación RL utilizado para tareas con escasa galardón) fallan en entornos complejos porque no pueden cerrar de guisa efectiva la brecha entre la ejecución de bajo nivel y la planificación de detención nivel.

Dirigir los pensamientos internos del LLM

Para exceder estas limitaciones, el equipo de Google propuso RL interna. Modelos autorregresivos avanzados ya "retener" cómo realizar internamente tareas complejas de varios pasos, incluso si no están capacitados explícitamente para hacerlo.

Adecuado a que estos comportamientos complejos están ocultos adentro del flujo residual del maniquí (es asegurar, los títulos numéricos que transportan información a través de las capas de la red), los investigadores introdujeron un "compensador de red neuronal interna," o metacontrolador. En sitio de monitorear y cambiar el token de salida, el metacontrolador controla el comportamiento del maniquí aplicando cambios a las activaciones internas del maniquí en las capas intermedias.

Este empujón dirige el maniquí a un estado útil específico. Luego, el maniquí almohadilla genera automáticamente la secuencia de pasos individuales necesarios para alcanzar ese objetivo porque ya ha trillado esos patrones durante su entrenamiento previo auténtico.

El metacontrolador opera mediante educación no supervisado y no requiere ejemplos de entrenamiento etiquetados por humanos. En cambio, los investigadores utilizan un entorno autosupervisado donde el maniquí analiza una secuencia completa de comportamiento y trabaja en torno a antes para inferir la intención oculta de detención nivel que mejor explica las acciones.

Durante la período interna de RL, las actualizaciones se aplican al metacontrolador, lo que cambia el entrenamiento de la predicción del futuro token al educación de acciones de detención nivel que pueden conducir a la alternativa.

Para comprender el valía práctico de esto, considere un agente empresarial encargado de producir código. Hoy en día, existe una difícil alternativa de compromiso: es necesario "pérdida temperatura" (previsibilidad) para conseguir la sintaxis correcta, pero "temperatura inscripción" (creatividad) para resolver el rompecabezas de dialéctica.

"La RL interna podría solucionar esto al permitir que el maniquí explore el espacio de acciones abstractas, es asegurar, distribuir la dialéctica y las llamadas a métodos, mientras se delega la realización a nivel de token de esas acciones a la distribución robusta y de último temperatura del maniquí almohadilla." Dijo Schimpf. El agente explora la alternativa sin romper la sintaxis.

Los investigadores estudiaron dos métodos para aplicar este compensador. En el primero, el maniquí autorregresivo almohadilla se entrena previamente en un conjunto de datos de comportamiento y luego se congela, mientras que el metacontrolador se entrena para dirigir el flujo residual del maniquí congelado. En el segundo, el metacontrolador y el maniquí almohadilla se optimizan conjuntamente, con los parámetros de ambas redes actualizados simultáneamente.

RL interno en acto

Para evaluar la efectividad de la RL interna, los investigadores realizaron experimentos en entornos jerárquicos diseñados para desconcertar a los estudiantes tradicionales. Estos incluían un mundo de cuadrícula discreto y una tarea de control continuo donde un cuadrúpedo "hormiga" El androide debe coordinar los movimientos de las articulaciones. Entreambos entornos utilizaron escasas recompensas con secuencias de acto muy largas.

Si proporcionadamente las líneas de almohadilla como GRPO y CompILE no lograron ilustrarse las tareas en un millón de episodios conveniente a la dificultad de asignar créditos en horizontes largos, el RL interno logró altas tasas de éxito con una pequeña cantidad de episodios de capacitación. Al designar objetivos de detención nivel en sitio de pequeños pasos, el metacontrolador redujo drásticamente el espacio de búsqueda. Esto permitió que el maniquí identificara qué decisiones de detención nivel conducían al éxito, haciendo que la asignación de crédito fuera lo suficientemente capaz como para resolver el problema de la escasa galardón.

En particular, los investigadores encontraron que el "congelado" El enfoque fue superior. Cuando el maniquí almohadilla y el metacontrolador fueron entrenados conjuntamente desde cero, el sistema no logró desarrollar abstracciones significativas. Sin incautación, adaptado a un maniquí congelado, el metacontrolador descubrió con éxito puntos de control secreto sin etiquetas humanas, alineando perfectamente su mecanismo de conmutación interno con los momentos reales en los que un agente terminaba un subobjetivo y comenzaba el futuro.

Transmitido que la industria actualmente se centra en modelos de razonamiento que generan información detallada "cadenas de pensamiento" Para resolver problemas, la investigación de Google apunta en torno a un futuro diferente, quizás más capaz.

"Nuestro estudio se suma a un creciente conjunto de trabajos que sugieren que el “razonamiento interno” no sólo es factible sino potencialmente más capaz que los enfoques basados en tokens." Dijo la vergüenza. "Adicionalmente, estos “pensamientos” silenciosos pueden desacoplarse de modalidades de entrada específicas, una propiedad que podría ser particularmente relevante para el futuro de la IA multimodal."

Si el razonamiento interno puede guiarse sin externalizarse, el futuro de los agentes de IA puede acatar menos de estrategias de estímulo y más de qué tan proporcionadamente podemos consentir y dirigir lo que los modelos ya representan internamente. Para las empresas que apuestan por sistemas autónomos que deben planificar, adaptarse y comportarse a dilatado plazo, ese cambio podría importar más que cualquier nuevo punto de narración de razonamiento.