Olvidar el etiquetado de datos: el r-cero de Tencent muestra cómo los LLM pueden entrenar a sí mismos

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora

Un nuevo situación de capacitación desarrollado por investigadores de Laboratorio de tencent ai y Universidad de Washington en St. Louis permite que los modelos de idiomas grandes (LLM) se mejoren sin requerir Cualquier datos marcados con humanos. La técnica, emplazamiento R-Zeroutiliza el enseñanza de refuerzo para ocasionar sus propios datos de entrenamiento desde cero, abordando uno de los principales cuellos de botella para crear sistemas de IA autoevolución. R-Zero funciona al tener dos modelos independientes que evolucionan conjuntamente interactuándose y desafiándose mutuamente.

Los experimentos muestran que R-Zero progreso sustancialmente las capacidades de razonamiento en diferentes LLM, lo que podría disminuir la complejidad y los costos de capacitación de IA avanzadilla. Para las empresas, este enfoque podría acelerar el avance de modelos especializados para tareas de razonamiento complejos sin el desembolso masivo de curarse los conjuntos de datos etiquetados.

El desafío de los LLM de autoevolución

La idea detrás de los LLM de autoevolución es crear sistemas de IA que puedan ocasionar, refinar y memorizar de modo autónoma y memorizar de sus propias experiencias. Esto ofrece un camino escalable en torno a una IA más inteligente y capaz. Sin confiscación, un desafío importante es que la capacitación de estos modelos requiere grandes volúmenes de tareas y etiquetas de adhesión calidad, que actúan como señales de supervisión para que la IA aprenda.

Abandonarse en los anotadores humanos para crear estos datos no solo es costoso y tardo, sino que todavía crea un cuello de botella fundamental. Limita efectivamente las capacidades potenciales de una IA con lo que los humanos pueden enseñarlo. Para afrontar esto, los investigadores han desarrollado métodos sin etiquetas que obtienen señales de premio directamente de las propias futuro de un maniquí, por ejemplo, midiendo su confianza en una respuesta. Si aceptablemente estos métodos eliminan la aprieto de etiquetas explícitas, aún dependen de un conjunto de tareas preexistentes, lo que limita su aplicabilidad en escenarios verdaderamente automóvil ponerse al día.

AI Scaling alcanza sus límites

Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:

Convertir la energía en una delantera estratégica

Bloque de inferencia válido para ganancias reales de rendimiento

Desbloquear ROI competitivo con sistemas de IA sostenibles

Asegure su motivo para mantenerse a la vanguardia: https://bit.ly/4mwgngo

Otros enfoques implican que los modelos generen sus propias tareas para memorizar. Sin confiscación, en dominios como el razonamiento rajado, donde no hay una forma simple de corroborar la corrección (como un ejecutor de código), estabilizar que la calidad de estos datos autogenerados sea un obstáculo significativo.

Cómo funciona R-Zero

R-Zero es un situación diseñado para entrenar LLMS de razonamiento que puede ponerse al día de cero datos externos. El proceso comienza con un maniquí almohadilla único, que se divide en dos roles: un “retador” y un “solucionador”. Estos dos modelos se optimizan de forma independiente, pero evolucionan juntos a través de un ciclo continuo de interacción.

El objetivo del retador es crear nuevas tareas que estén adaptado en el borde de las habilidades actuales del solucionador, ni demasiado factible ni increíble. El solucionador, a su vez, es recompensado por resolver estas tareas cada vez más complejas. En comentarios escritos para VentureBeat, Chengsong Huang, coautor del circular y estudiante de doctorado en la Universidad de Washington en St. Louis, explicó que esta dinámica es crucial porque ocasionar preguntas de adhesión calidad a menudo es más complicada que encontrar las respuestas.

“Lo que encontramos en un entorno práctico es que el viejo desafío es no ocasionar las respuestas … sino más aceptablemente ocasionar preguntas de adhesión calidad, novedosas y progresivamente más difíciles”, dijo Huang. “Creemos que los buenos maestros son mucho más raros que los buenos estudiantes. La dinámica coevolutiva automatiza la creación de este ‘adiestrado’, asegurar un plan de estudios estable y dinámico que empuja las capacidades del solucionador mucho más allá de lo que un conjunto de datos petrificado y preexistente podría obtener”.

Una vez que el Challenger genera suficientes preguntas, se filtran para la diversificación y se compilan en un conjunto de datos de capacitación. En la período de entrenamiento del solucionador, está oportuno a estas preguntas desafiantes. La respuesta “correcta” para cada pregunta está determinada por un voto mayoritario de los propios intentos anteriores del solucionador.

Todo este proceso se repite, creando un onda de establecimiento personal que funciona sin ninguna intervención humana, lo que permite que los dos modelos se empujen mutuamente para que se vuelvan progresivamente más capaces en cada iteración.

R-Zero en acto

Los investigadores probaron R-Zero en varios LLM de código rajado, incluidos modelos de las familias QWEN3 y Octothinker. Primero entrenaron a los modelos sobre problemas matemáticos y luego probaron si las habilidades de razonamiento aprendidas podrían generalizarse a otros puntos de remisión complejos de dominio militar como Mmlu-for (tareas de comprensión y razonamiento de varios idiomas) y Supergpqa (Tareas de ciencia y razonamiento).

Los resultados mostraron que R-Zero es un situación enormemente efectivo y descreído del maniquí. Por ejemplo, aumentó la puntuación del maniquí QWEN3-4B-base en +6.49 en promedio en los puntos de remisión de razonamiento matemático. El proceso de capacitación mejoró de modo consistente y sustancial el rendimiento, con ganancias que se acumulan en varias iteraciones. El maniquí más noble QWEN3-8B-base vio su puntaje de matemáticas promedio aumentar en +5.51 puntos luego de tres iteraciones.

Un hallazgo secreto fue el brinco de rendimiento inmediato luego de la primera iteración, que validó la efectividad del papel del retador en la creación de un plan de estudios de enseñanza de adhesión calidad. “Esto confirma que el plan de estudios inteligente generado por el retador entrenado por RL es significativamente más efectivo que el de un productor no entrenado”, escriben los investigadores en su artículo.

En particular, las habilidades aprendidas de los problemas matemáticos se transfirieron efectivamente a tareas de razonamiento militar, mejorando así las capacidades subyacentes de los modelos. Por ejemplo, el mismo maniquí QWEN3-4B-base mostró una progreso de +7.54 en puntos de remisión de razonamiento de dominio militar. Otro hallazgo interesante es que R-Zero puede servir como un paso de pre-entrenamiento esencial. Los modelos primero mejoraron primero por R-Zero lograron un rendimiento aún viejo cuando luego se ajustaron los datos etiquetados tradicionales, lo que sugiere que el situación actúa como un amplificador de rendimiento.

Para las empresas, el enfoque “de cero datos” podría ser un cambio de esparcimiento, especialmente en dominios de hornacina donde los datos de adhesión calidad son escasos o inexistentes. Huang destaca que la principal delantera de R-Zero es su capacidad para dejar de costado la parte más cara y que requiere mucho tiempo del avance de IA: la curación de datos.

“Nuestro enfoque evita completamente el cuello de botella fundamental de tener que encontrar, etiquetar y curar conjuntos de datos de adhesión calidad”, dijo. “No se alcahuetería solo de una medida de hucha de costos; es una vía en torno a la creación de AI que puede exceder las capacidades humanas, porque ya no está limitada por el envergadura del conocimiento o los datos humanos”.

Sin confiscación, el proceso coevolutivo todavía reveló un desafío crítico. A medida que el Challenger genera con éxito problemas progresivamente más difíciles, la capacidad del solucionador para producir respuestas confiables “correctas” a través de la mayoría de los votos comienza a disminuir. Los investigadores encontraron que la verdadera precisión de estas etiquetas autogeneradas cayó del 79% en la primera iteración al 63% en el terceroen comparación con un resistente Oracle LLM como GPT -4. Esta disminución de la calidad de los datos es una compensación secreto y un posible cuello de botella para el rendimiento a generoso plazo del sistema.

Huang reconoció que este es un problema fundamental para el arquetipo de autoevolución. “Nuestro trabajo es una prueba de concepto que demuestra el potencial de este enfoque, pero reconocemos que abastecer una progreso estable a generoso plazo sin estabilizarse es un obstáculo significativo”, dijo. “Resolver este problema será un próximo paso crucial para toda la comunidad de investigación”.

Los investigadores todavía destacan una traba secreto del situación: el mecanismo presente es el más adecuado para dominios como las matemáticas donde la corrección puede determinarse objetivamente. Entonces, ¿cómo podría este poderoso arquetipo echarse a tareas empresariales más subjetivas como ocasionar copias de marketing o resumir informes?

Huang sugiere que un camino potencial en torno a delante implica pegar un tercer agente de IA-evolución de la mezcla: un “verificador” o “crítico”.

“En motivo de evaluar una respuesta ‘correcta’ simple, este verificador estaría capacitado para evaluar la calidad de la producción del solucionador en función de criterios más matizados”, explicó. “La dinámica coevolutiva involucraría al Challenger creando el aviso, el solucionador que genera la respuesta y el verificador que proporciona una señal de calidad, con los tres modelos mejorando juntos”.

Si aceptablemente esto sigue siendo una dirección para futuras investigaciones, apunta en torno a un futuro en el que los sistemas de IA totalmente autónomos pueden dominar no solo la método objetiva, sino todavía el razonamiento subjetivo.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu dirigente, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.