Más allá de las matemáticas y la codificación: el nuevo situación RL ayuda a capacitar a los agentes LLM para tareas complejas del mundo verdadero

Más allá de las matemáticas y la codificación: el nuevo situación RL ayuda a capacitar a los agentes LLM para tareas complejas del mundo verdadero

Investigadores de la Universidad de Ciencia y Tecnología de China han desarrollado un nuevo situación de formación por refuerzo (RL) que ayuda a entrenar modelos de verbo grandes (LLM) para tareas complejas de agentes más allá de problemas proporcionadamente definidos como matemáticas y codificación.

Su situación, Agente-R1es compatible con algoritmos RL populares y muestra una alivio considerable en tareas de razonamiento que requieren múltiples etapas de recuperación e interacciones de múltiples turnos con herramientas.

El situación se plinto en una redefinición del tipo RL que tiene en cuenta la naturaleza dinámica de las aplicaciones agentes que requieren interactuar con entornos en cambio e información imperfecta. Este situación es mucho más similar a las aplicaciones del mundo verdadero y puede tener usos importantes para tareas de agencia en entornos empresariales.

Repensar el formación por refuerzo para agentes

RL se ha convertido en la piedra angular de la formación de LLM para tareas de razonamiento proporcionadamente definidas. En áreas como matemáticas y codificación, el maniquí recibe una señal clara: la respuesta es correcta o incorrecta. Esto hace que sea relativamente sencillo remunerar o penalizar su comportamiento.

Pero este enfoque tiene dificultades con tareas de agencia que requieren que los modelos trabajen en entornos interactivos, desarrollen expresiones dinámicos a través de conversaciones, realicen razonamientos de varios pasos y respondan a comentarios impredecibles. Entrenar agentes con RL para estos escenarios presenta desafíos únicos, especialmente en interacciones de múltiples turnos donde diseñar recompensas efectivas es complicado y el agente capacitado a menudo no logra internacionalizar a la naturaleza desordenada e impredecible de los entornos del mundo verdadero.

Para afrontar estos desafíos, los investigadores de la Universidad de Ciencia y Tecnología revisaron el situación fundamental de RL, conocido como Proceso de intrepidez de Markov (MPD). Un MDP modela la toma de decisiones utilizando cuatro componentes esencia: un espacio de estados (el conjunto de posibles estados en los que puede estar un agente); un espacio de influencia (lo que puede hacer el agente); una probabilidad de transición de estado (el estado al que probablemente conducirá una influencia); y una función de premio (si el resultado es bueno o malo). El documento propone ampliar este situación para adaptarlo mejor a los agentes de LLM.

En la nueva formulación, el espacio de estados se amplía para incluir no sólo el estado flagrante (la secuencia flagrante de tokens generados por el maniquí) sino toda la historia de interacciones y feedback ambiental. Las acciones todavía tienen que ver fundamentalmente con la concepción de texto, pero secuencias específicas de texto ahora pueden activar herramientas externas, como una señal API. Las transiciones de estado se vuelven impredecibles, o "probabilístico," porque el resultado depende no sólo de los tokens que predice el maniquí sino todavía de la respuesta del entorno, que depende de factores externos. Finalmente, el sistema de premio se vuelve más granular, incorporando niveles intermedios. "recompensas del proceso" por completar con éxito los pasos a lo grande del camino, en división de solo una premio al final. Esto proporciona una prontuario más frecuente y precisa al agente durante el entrenamiento.

Esto posterior es especialmente importante y aborda el problema de la “premio escasa” que enfrentan la mayoría de los marcos de RL. Cuando el agente recibe una única señal de premio basada en el resultado final, no aprende de los pasos intermedios correctos e incorrectos que ha entregado a lo grande del camino. Las recompensas de proceso resuelven este problema proporcionando señales de feedback sobre estos pasos intermedios, haciendo que el proceso de formación sea mucho más válido.

“Estas extensiones son cruciales para permitir que los algoritmos de formación por refuerzo entrenen agentes sofisticados capaces de realizar razonamientos complejos de varios pasos e interacción interiormente de entornos dinámicos”, escriben los investigadores en su artículo.

El situación del Agente-R1

Basado en la definición extendida de MDP, los investigadores desarrollaron Agente-R1una plataforma de capacitación flexible y realizable de usar para agentes LLM basados ​​en RL. Amplía los marcos tradicionales de RL de un solo turno para manejar la naturaleza interactiva y de múltiples turnos de las tareas de agente, lo que permite una integración perfecta con diversos entornos.

La diferencia más significativa radica en la "etapa de implementación," donde el agente genera respuestas. En RL de un solo turno, el maniquí genera una respuesta una vez. En RL de múltiples turnos, el proceso implica una serie de interacciones complejas de ida y dorso.

Agent-R1 logra esta implementación flexible de múltiples turnos con dos módulos principales: Tool y ToolEnv. El módulo Aparejo actúa como ejecutor de acciones específicas, como seducir a una API o lograr a una colchoneta de datos. Cuando se invoca, una útil realiza su influencia y devuelve el resultado directo y sin procesar. Por el contrario, el módulo ToolEnv ​​es el orquestador e intérprete. Toma el resultado de la útil y determina cómo ese resultado afecta el estado del agente y el progreso militar de la tarea. ToolEnv ​​gestiona las transiciones de estado, calcula señales de premio en función de los resultados de la útil y empaqueta la nueva información de estado para el agente.

En esquema, cuando se completa una influencia, la útil informa "qué pasó," mientras ToolEnv ​​dicta "qué significa este resultado para el agente y la tarea."

Agente-R1 en influencia

Los investigadores probaron el Agente-R1 en la desafiante tarea de contestar preguntas de múltiples saltos, que requiere un razonamiento complicado, recuperación de información en múltiples documentos y toma de decisiones de múltiples pasos. Entrenaron a Qwen2.5-3B-Instruct en conjuntos de datos de control de calidad y evaluaron su desempeño en el hotpotqa y 2WikiMultihopQA conjuntos de datos. Incluso lo probaron en el conjunto de datos de Musique, que estaba fuera del dominio de las tareas en las que se capacitó al agente.

Compararon varios algoritmos de RL entrenados con Agent-R1 con dos líneas de colchoneta: Naive RAG, un método de recuperación de un solo paso en el que un LLM alega basándose en un conjunto de documentos recuperados, y Pulvínulo Tool Call, que utiliza la capacidad nativa de señal de funciones del maniquí sin entrenamiento de RL especializado.

Los resultados demostraron que todos los agentes capacitados en RL superaron sustancialmente los títulos de relato. GRPO, un operación RL utilizado en modelos de razonamiento progresista como DeepSeek-R1obtuvo el mejor rendimiento militar.

“Estos resultados validan sólidamente la aptitud del Agent-R1 en el entrenamiento de potentes agentes LLM a través de RL de extremo a extremo, mostrando ganancias consistentes y sustanciales con respecto a las líneas de colchoneta en diversos conjuntos de datos y algoritmos de RL”, escriben los investigadores.

Estos hallazgos pueden ser significativos para la empresa, donde existe un válido impulso para aplicar la RL y el razonamiento más allá de dominios proporcionadamente definidos. Un situación diseñado para manejar interacciones desordenadas y de múltiples turnos con usuarios y entornos dinámicos puede allanar el camino para nuevos agentes capaces de resolver problemas complejos en entornos del mundo verdadero.

“Esperamos que Agent-R1 proporcione una colchoneta para trabajos futuros sobre capacitación de RL unificada y escalable para LLM agentes”, concluyen los investigadores.

Related Posts

HUAWEI Watch GT Runner 2 es el temporalizador inteligente “it” para maratonistas

HUAWEI ha regresado este año con una de sus series de relojes inteligentes más centradas en el rendimiento; HUAWEI Temporalizador GT Runner 2. Funciona perfectamente con Android e iOS y…

El principal de robótica de OpenAI renuncia por el acuerdo con el Pentágono

Caitlin Kalinowski pasó 16 meses desarrollando el software de IA física de OpenAI. El sábado, dijo que la empresa avanzó demasiado rápido en poco demasiado importante. La semana que comenzó…

You Missed

HUAWEI Watch GT Runner 2 es el temporalizador inteligente “it” para maratonistas

HUAWEI Watch GT Runner 2 es el temporalizador inteligente “it” para maratonistas

Ocho de cada 10 cáncer de ovario y endometrio son avanzados

Ocho de cada 10 cáncer de ovario y endometrio son avanzados

Colombia celebra este domingo cruciales elecciones legislativas | AlMomento.net

Colombia celebra este domingo cruciales elecciones legislativas | AlMomento.net

Senador yanqui recorre verja fronteriza – Remolacha

Senador yanqui recorre verja fronteriza – Remolacha

Tipo que ingresó a 20,000 migrantes a EE.UU. se declara culpable – Remolacha

Tipo que ingresó a 20,000 migrantes a EE.UU. se declara culpable – Remolacha

El principal de robótica de OpenAI renuncia por el acuerdo con el Pentágono

El principal de robótica de OpenAI renuncia por el acuerdo con el Pentágono