
Los investigadores del Instituto Tecnológico de Massachusetts (MIT) están recibiendo una atención renovada por el incremento y fuente abierta una técnica que permite que los grandes modelos de jerigonza (LLM), como los que sustentan ChatGPT y la mayoría de los chatbots de IA modernos, se mejoren generando datos sintéticos para realizar ajustes.
La técnica, conocida como SEAL (LLM autoadaptables), se describió por primera vez en un artículo publicado en junio y cubierto por VentureBeat en ese momento.
Un sistema significativamente ampliado y La interpretación actualizada del documento se publicó el mes pasado.así como código fuente descubierto publicado en Github (bajo una abuso MIT, que permite el uso comercial y empresarial) y está causando nuevas olas entre los usuarios avanzados de IA en la red social X esta semana.
SEAL permite a los LLM gestar y aplicar de forma autónoma sus propias estrategias de ajuste. A diferencia de los modelos convencionales que se basan en datos externos fijos y procesos de optimización creados por humanos, SEAL permite que los modelos evolucionen produciendo sus propios datos de entrenamiento sintéticos y las correspondientes directivas de optimización.
El incremento proviene de un equipo afiliado al Improbable AI Lab del MIT, que incluye a Adam Zweiger, Jyothish Pari, Han Guo, Ekin Akyürek, Yoon Kim y Pulkit Agrawal. Su investigación se presentó recientemente en la 39.ª Conferencia sobre sistemas de procesamiento de información neuronal (NeurIPS 2025).
Informes: de “más allá de la IA estática” a los sistemas autoadaptativos
A principios de este año, VentureBeat informó por primera vez sobre SEAL como un situación en etapa original que permitía que los modelos de jerigonza generaran y entrenaran con sus propios datos sintéticos, un remedio potencial para el estancamiento de los modelos previamente entrenados una vez implementados.
En esa etapa, SEAL se planteó como una prueba de concepto que podría permitir que los agentes de IA empresarial aprendieran continuamente en entornos dinámicos sin indigencia de retornar a capacitarse manualmente.
Desde entonces, la investigación ha liberal considerablemente. La nueva interpretación amplía el situación precedente al demostrar que la capacidad de autoadaptación de SEAL aumenta con el tamaño del maniquí, integra el estudios por refuerzo de forma más efectiva para aminorar el olvido catastrófico y formaliza la estructura de doble rizo de SEAL (ajuste fino supervisado interno y optimización del refuerzo foráneo) para alcanzar reproducibilidad.
El documento actualizado asimismo presenta evaluaciones en diferentes formatos de indicaciones, estabilidad mejorada durante los ciclos de estudios y una discusión de los desafíos prácticos de implementación en el momento de la inferencia.
Encarar las limitaciones de los modelos estáticos
Si aceptablemente los LLM han demostrado capacidades notables en la coexistentes y comprensión de textos, su acoplamiento a nuevas tareas o conocimientos suele ser manual, frágil o dependiente del contexto.
SEAL desafía este status quo al equipar a los modelos con la capacidad de gestar lo que los autores llaman “autoediciones”: resultados en jerigonza natural que especifican cómo el maniquí debe desempolvar sus pesos.
Estas autoediciones pueden tomar la forma de información reformulada, implicaciones lógicas o configuraciones de herramientas para aumento y capacitación. Una vez generado, el maniquí se ajusta a sí mismo en función de estas ediciones. El proceso está guiado por el estudios por refuerzo, donde la señal de premio proviene de un mejor desempeño en una tarea posterior.
El diseño imita cómo los estudiantes humanos podrían reformular o reorganizar los materiales de estudio para internalizar mejor la información. Esta reestructuración del conocimiento ayer de la comprensión constituye una preeminencia esencia sobre los modelos que consumen pasivamente nuevos datos “tal cual”.
Rendimiento en todas las tareas
SEAL ha sido probado en dos dominios principales: incorporación de conocimientos y estudios en pocas oportunidades.
En el ámbito de la incorporación de conocimientos, los investigadores evaluaron qué tan aceptablemente un maniquí podría internalizar nuevos contenidos fácticos de pasajes similares a los del conjunto de datos SQuAD, un conjunto de datos de remisión sobre comprensión lectora introducido por la Universidad de Stanford en 2016, que consta de más de 100.000 pares de preguntas y respuestas de origen notorio basados en artículos de Wikipedia (Rajpurkar et al., 2016).
En oportunidad de ajustar directamente el texto del pasaje, el maniquí generó implicaciones sintéticas del pasaje y luego afinarlos.
Luego de dos rondas de estudios por refuerzo, el maniquí mejoró la precisión en la respuesta a preguntas del 33,5 % al 47,0 % en una interpretación sin contexto de SQuAD, superando los resultados obtenidos utilizando datos sintéticos generados por GPT-4.1.
En el entorno de estudios de pocas oportunidades, SEAL se evaluó utilizando un subconjunto del punto de remisión ARC, donde las tareas requieren razonamiento a partir de solo unos pocos ejemplos. Aquí, SEAL generó autoediciones especificando aumentos de datos e hiperparámetros.
Luego del estudios por refuerzo, la tasa de éxito en la resolución correcta de tareas pendientes saltó al 72,5%, frente al 20% utilizando autoediciones generadas sin estudios reforzado. Los modelos que se basaron sólo en el estudios en contexto sin ninguna acoplamiento obtuvieron una puntuación del 0%.
Situación técnico
SEAL opera utilizando una estructura de dos bucles: un rizo interno realiza un ajuste fino supervisado basado en la autoedición, mientras que un rizo foráneo utiliza el estudios por refuerzo para refinar la política que genera esas autoediciones.
El operación de estudios por refuerzo utilizado se friso en ReSTEM, que combina muestreo con clonación de comportamiento filtrada. Durante la capacitación, solo se refuerzan las autoediciones que conducen a mejoras en el rendimiento. Este enfoque le enseña eficazmente al maniquí qué tipos de ediciones son más beneficiosas para el estudios.
Para alcanzar eficiencia, SEAL aplica ajustes finos basados en LoRA en oportunidad de actualizaciones completas de parámetros, lo que permite una experimentación rápida y una acoplamiento de bajo costo.
Fortalezas y limitaciones
Los investigadores informan que SEAL puede producir datos de entrenamiento de reincorporación utilidad con una supervisión mínima, superando incluso a modelos externos grandes como GPT-4.1 en tareas específicas.
Asimismo demuestran que SEAL se generaliza más allá de su configuración llamativo: continúa funcionando aceptablemente al subir desde actualizaciones de un solo paso hasta escenarios de preentrenamiento continuo de múltiples documentos.
Sin confiscación, el situación no está exento de limitaciones. Un problema es el olvido catastrófico, donde las actualizaciones para incorporar nueva información pueden degradar el rendimiento en tareas aprendidas previamente.
En respuesta a esta preocupación, el coautor Jyo Pari le dijo a VentureBeat por correo electrónico que el estudios por refuerzo (RL) parece mitigar el olvido de forma más efectiva que el ajuste fino supervisado unificado (SFT), citando un artículo nuevo sobre el tema. Añadió que combinar esta información con SEAL podría conducir a nuevas variantes en las que SEAL aprenda no sólo datos de entrenamiento, sino asimismo funciones de premio.
Otro desafío es la sobrecarga computacional: evaluar cada autoedición requiere ajustes y pruebas de rendimiento, que pueden tomar entre 30 y 45 segundos por estampado, mucho más que las tareas unificado de estudios por refuerzo.
Como explicó Jyo, “El entrenamiento de SEAL no es trivial porque requiere 2 ciclos de optimización, uno RL foráneo y uno SFT interno. En el momento de la inferencia, la aggiornamento de los pesos del maniquí asimismo requerirá una nueva infraestructura de sistemas”. Hizo hincapié en la indigencia de realizar investigaciones futuras sobre sistemas de despliegue como un camino crítico para que SEAL sea práctico.
Encima, el diseño contemporáneo de SEAL supone la presencia de tareas emparejadas y respuestas de remisión para cada contexto, lo que limita su aplicabilidad directa a corpus sin etiquetar. Sin confiscación, Jyo aclaró que siempre que haya una tarea posterior con una premio computable, se puede entrenar a SEAL para que se adapte en consecuencia, incluso en dominios críticos para la seguridad. En principio, un maniquí entrenado por SEAL podría cultivarse a evitar el entrenamiento con entradas dañinas o maliciosas si se recorrido por la señal de premio adecuada.
Reacciones de la comunidad de IA
La comunidad de investigadores y constructores de IA ha reaccionado con una mezcla de entusiasmo y especulación al documento SEAL. En X, anteriormente Twitter, varias cuentas destacadas centradas en la IA opinaron sobre el impacto potencial.
Usufructuario @Vraserxun autodenominado educativo y entusiasta de la IA, llamó a SEAL “el principio de la IA de autoaprendizaje continuo” y predijo que modelos como el GPT-6 de OpenAI podrían adoptar una inmueble similar.
En sus palabras, SEAL representa “el fin de la era de los pesos congelados”, marcando el eclosión de sistemas que evolucionan a medida que cambia el mundo que los rodea.
Destacaron la capacidad de SEAL para formar expresiones persistentes, reparar conocimientos y cultivarse de datos en tiempo auténtico, comparándolo con un paso fundamental en torno a modelos que no sólo utilizan información sino que la absorben.
Mientras tanto, @alex_promptercofundador de una empresa de marketing impulsada por IA, enmarcó a SEAL como un brinco en torno a modelos que fielmente se reescriben a sí mismos. “El MIT acaba de construir una IA que puede reescribir su propio código para volverse más inteligente”, escribió. Citando los resultados esencia del artículo: un aumento del 40 % en el rememoración de hechos y un rendimiento superior al de GPT-4.1 utilizando datos autogenerados. – describió los hallazgos como una confirmación de que “los LLM que se ajustan a sí mismos ya no son ciencia ficción”.
El entusiasmo refleja un apetito más amplio en el espacio de la IA por modelos que puedan transformarse sin un reentrenamiento constante o supervisión humana, particularmente en dominios que cambian rápidamente o casos de uso personalizados.
Direcciones futuras y preguntas abiertas
En respuesta a preguntas sobre cómo ampliar SEAL a modelos y tareas más grandes, Jyo señaló experimentos (Apéndice B.7) que muestran que a medida que aumenta el tamaño del maniquí, asimismo aumenta su capacidad de autoadaptación. Comparó esto con los estudiantes que mejoran sus técnicas de estudio con el tiempo: los modelos más grandes simplemente son mejores para gestar autoediciones avíos.
Cuando se le preguntó si SEAL se generaliza a nuevos estilos de estímulo, confirmó que sí, citando la Tabla 10 del artículo. Sin confiscación, asimismo reconoció que el equipo aún no ha probado la capacidad de SEAL para transferir dominios o arquitecturas maniquí completamente nuevos.
“SEAL es un trabajo original que muestra las posibilidades”, dijo. “Pero requiere muchas más pruebas”. Añadió que la propagación puede mejorar a medida que SEAL esté capacitado en una distribución más amplia de tareas.
Curiosamente, el equipo descubrió que sólo unos pocos pasos de estudios por refuerzo ya conducían a mejoras de rendimiento mensurables. “Esto es emocionante”, señaló Jyo, “porque significa que con más computación, es de esperar que podamos obtener aún más mejoras”. Sugirió que experimentos futuros podrían explorar métodos de estudios por refuerzo más avanzados más allá de ReSTEM, como la optimización de políticas relativas al especie (GRPO).
En dirección a modelos más adaptativos y agentes
SEAL representa un paso en torno a modelos que pueden mejorar de forma autónoma con el tiempo, tanto integrando nuevos conocimientos como reconfigurando la forma en que aprenden. Los autores visualizan extensiones futuras en las que SEAL podría ayudar en el autoentrenamiento previo, el estudios continuo y el incremento de sistemas agentes: modelos que interactúan con entornos en cambio y se adaptan de forma incremental.
En tales entornos, un maniquí podría utilizar SEAL para sintetizar actualizaciones de peso a posteriori de cada interacción, internalizando gradualmente comportamientos o conocimientos. Esto podría aminorar la indigencia de supervisión repetida e intervención manual, particularmente en dominios especializados o con datos limitados.
A medida que el texto de la web pública se satura y la disponibilidad de datos obstaculiza la ampliación de los LLM, los enfoques autodirigidos como SEAL podrían desempeñar un papel fundamental para ampliar los límites de lo que los LLM pueden alcanzar.
Puede aceptar al esquema SEAL, incluido el código y documentación adicional, en: https://jyopari.github.io/posts/seal





