
Investigadores de Meta FERIA y el Universidad Franquista de Singapur han desarrollado un nuevo situación de educación por refuerzo para sistemas de IA que se mejoran a sí mismos.
Llamado Autojuego en entornos Corpus (SPICE)el situación enfrenta a dos agentes de IA entre sí, creando sus propios desafíos y mejorando gradualmente sin supervisión humana.
Si correctamente actualmente es una prueba de concepto, este mecanismo de reproducción cibernética podría proporcionar una saco para futuros sistemas de IA que puedan adaptarse dinámicamente a sus entornos, haciéndolos más robustos frente a la imprevisibilidad de las aplicaciones del mundo vivo.
El desafío de la IA automejorada
El objetivo de la IA de progreso personal es crear sistemas que puedan mejorar sus capacidades interactuando con su entorno.
Un enfoque popular es el educación por refuerzo con recompensas verificables (RLVR), donde los modelos son recompensados por proporcionar las respuestas correctas a los problemas. Esto a menudo se ve condicionado por su dependencia de conjuntos de problemas seleccionados por humanos y de ingeniería de recompensas de dominios específicos, lo que dificulta su escalamiento.
El autojuego, en el que un maniquí progreso compitiendo contra sí mismo, es otro ideal prometedor. Pero los métodos de autojuego existentes para los modelos lingüísticos suelen estar limitados por dos factores críticos.
-
FLos errores reales en las preguntas y respuestas generadas se combinan, lo que lleva a un ciclo de feedback de alucinaciones.
-
Cuando el turbina y el solucionador de problemas tienen simetría de información (es proponer, comparten la misma saco de conocimientos), no logran producir desafíos genuinamente nuevos y caen en patrones repetitivos.
Como señalan los investigadores en su artículo, “Estos fracasos empíricos sistemáticos indican que la superación personal requiere la interacción con una fuente externa que proporcione feedback diversa y verificable, en extensión de una pura introspección de circuito cerrado”.
Cómo funciona la especia
SPICE es un situación de selección autónomo en el que un único maniquí actúa en dos roles distintos.
-
A "Desafiador" construye un plan de estudios de problemas desafiantes a partir de un gran corpus de documentos.
-
A "razonador" luego intenta resolver estos problemas sin acercamiento a los documentos fuente.
Esta configuración rompe la simetría de la información que limita otros métodos de selección autónomo, ya que el Reasoner no tiene acercamiento a los documentos ni al conocimiento que el Challenger utiliza para producir los problemas.
Asentar las tareas en un corpus vasto y diverso de documentos previene las alucinaciones al afirmar preguntas y respuestas en contenido del mundo vivo. Esto es importante porque para que los sistemas de IA mejoren de forma confiable, necesitan fuentes de conexión a tierra externas. Por lo tanto, los agentes de LLM deben memorizar de las interacciones con los humanos y el mundo vivo, no solo de sus propios resultados, para evitar errores compuestos.
La dinámica de confrontación entre los dos roles crea un currículo forzoso.
El Challenger es recompensado por producir problemas que son diversos y están en la frontera de la capacidad del Reasoner (ni demasiado fáciles ni imposibles).
El Razonador es recompensado por reponer correctamente. Esta interacción simbiótica empuja a los dos agentes a descubrir y pasar continuamente nuevos desafíos.
Adecuado a que el sistema utiliza documentos sin procesar en extensión de pares de preguntas y respuestas predefinidos, puede producir diversos formatos de tareas, como preguntas de opción múltiple y de formato vacancia.
Esta flexibilidad permite aplicar SPICE a cualquier dominio, rompiendo el cuello de botella que ha condicionado los métodos anteriores a campos limitados como las matemáticas y el código. Igualmente reduce la dependencia de costosos conjuntos de datos seleccionados por humanos para dominios especializados como estudio legales o médicos.
ESPECIAS en influencia
Los investigadores evaluaron SPICE en varios modelos saco, incluidos Qwen3-4B-Pulvínulo y OctoThinker-3B-Pulvínulo-híbrida.
Compararon su rendimiento con líneas de saco como el maniquí saco sin entrenamiento, un maniquí de Reasoner entrenado con un maniquí fijo "Musculoso retador" (Qwen3-32B-Instruct) y métodos puros de autojuego como R-Zero y Absolute Zero. La evaluación abarcó una amplia abanico de puntos de remisión de razonamiento matemático y genérico.
En todos los modelos, SPICE superó consistentemente las líneas de saco, brindando mejoras significativas en tareas de razonamiento genérico y matemático.
Los resultados muestran que las capacidades de razonamiento desarrolladas a través del selección personal basado en corpus se transfieren ampliamente entre diferentes modelos, gracias a los diversos corpus de conocimiento foráneo que utilizaron.
Un hallazgo secreto es que la dinámica de confrontación crea un currículo forzoso efectivo. A medida que avanza el entrenamiento, el Challenger aprende a producir problemas cada vez más difíciles.
En un experimentación, la tasa de aprobación del Reasoner en un conjunto fijo de problemas aumentó del 55% al 85% con el tiempo, lo que demuestra sus capacidades mejoradas.
Mientras tanto, las versiones posteriores del Challenger pudieron producir preguntas que redujeron la tasa de aprobación de un Reasoner en etapa original del 55% al 35%, lo que confirma que los dos roles coevolucionan exitosamente.
Los investigadores concluyen que este enfoque presenta un cambio de ideal en los métodos de razonamiento de progreso personal, desde “un selección personal de circuito cerrado que a menudo se estanca oportuno a la deriva de las alucinaciones, a una progreso abierta a través de la interacción con el vasto y verificable conocimiento integrado en los corpus de documentos web”.
Actualmente, el corpus utilizado para SPICE representa la experiencia humana capturada en texto. El objetivo final es que los sistemas de progreso personal generen preguntas basadas en interacciones con la verdad, incluido el mundo físico, Internet y las interacciones humanas a través de múltiples modalidades como video, audio y datos de sensores.






