Únase al evento confiable por los líderes empresariales durante casi dos décadas. VB Transform reúne a las personas que construyen una logística de IA empresarial existente. Obtenga más información
Investigadores de CON han desarrollado un entorno llamado Modelos de idioma autoadapentamiento (Sello) que permite que los modelos de idiomas grandes (LLM) aprendan y se adaptan continuamente actualizando sus propios parámetros internos. Seal enseña a una LLM a suscitar sus propios datos de capacitación y modernizar instrucciones, lo que le permite absorber permanentemente nuevos conocimientos y educarse nuevas tareas.
Este entorno podría ser útil para las aplicaciones empresariales, particularmente para los agentes de IA que operan en entornos dinámicos, donde deben procesar constantemente nueva información y adaptar su comportamiento.
El desafío de adaptar LLM
Si perfectamente los modelos de idiomas grandes han mostrado habilidades notables, adaptarlos a tareas específicas, integrar nueva información o dominar nuevas habilidades de razonamiento sigue siendo un obstáculo significativo.
Actualmente, cuando se enfrenta a una nueva tarea, los LLM generalmente aprenden de los datos “as-es” a través de métodos como Finetuning o en contexto. Sin bloqueo, los datos proporcionados no siempre están en un formato espléndido para que el maniquí aprenda de forma valioso. Los enfoques existentes no permiten que el maniquí desarrolle sus propias estrategias para la mejor transformación y educación de la nueva información.
“Muchos casos de uso empresarial exigen más que solo un retiro de hechos: requieren una acondicionamiento más profunda y persistente”, dijo a VentureBeat Jyo Pari, estudiante de doctorado del MIT y coautor del publicación. “Por ejemplo, un asistente de codificación podría escasear internalizar el entorno de software específico de una empresa, o un maniquí orientado al cliente podría escasear educarse el comportamiento o las preferencias únicas de un agraciado a lo grande del tiempo”.
En tales casos, la recuperación temporal se queda corta, y el conocimiento debe “hornear” los pesos del maniquí para que influya en todas las respuestas futuras.
Creación de modelos de idioma autoadaptador
“Como un paso cerca de la acondicionamiento escalable y valioso de los modelos de idioma, proponemos equipar los LLM con la capacidad de suscitar sus propios datos de capacitación y las directivas de finete para usar dichos datos”, afirman los investigadores del MIT en su artículo.

La posibilidad de los investigadores es el sello, sigla de modelos de idioma de autoadaptación. Utiliza un operación de educación de refuerzo (RL) para entrenar un LLM para suscitar “autoedits”, instrucciones en idioma natural que especifican cómo el maniquí debe modernizar sus propios pesos. Estas autoedits pueden reestructurar nueva información, crear ejemplos de capacitación sintética o incluso constreñir los parámetros técnicos para el proceso de educación en sí.
Intuitivamente, Seal enseña un maniquí cómo crear su propia monitor de estudio personalizada. En circunscripción de solo acertar un nuevo documento (los datos sin procesar), el maniquí aprende a reescribir y reformatear esa información en un estilo que puede absorber e internalizar más fácilmente. Este proceso reúne varias áreas secreto de la investigación de IA, incluida la vivientes de datos sintéticos, el educación de refuerzo y la capacitación en el tiempo de prueba (TTT).
El entorno funciona en un sistema de dos bucles. En un “caracolillo interno”, el maniquí utiliza un autoedit para realizar una pequeña puesta al día temporal de sus pesos. En un “caracolillo foráneo”, el sistema evalúa si esa puesta al día mejoró el rendimiento del maniquí en una tarea de destino. Si lo hizo, el maniquí recibe una premio positiva, reforzando su capacidad para suscitar ese tipo de autoedit efectivo en el futuro. Con el tiempo, la LLM se convierte en un experimentado en enseñarse.
En su estudio, los investigadores utilizaron un maniquí único para todo el entorno del sello. Sin bloqueo, igualmente señalan que este proceso se puede desacoplar en un maniquí de “maestro-estudiante”. Un maniquí de experto especializado podría ser capacitado para suscitar autoedits efectivos para un maniquí de estudiante separado, que luego se actualizaría. Este enfoque podría permitir tuberías de acondicionamiento más especializadas y eficientes en entornos empresariales.
Sello en bono
Los investigadores probaron el sello en dos dominios secreto: la incorporación del conocimiento (la capacidad de integrar permanentemente los nuevos hechos) y el educación de pocos disparos (la capacidad de ampliar a partir de un puñado de ejemplos).

Para la incorporación del conocimiento, el objetivo era ver si el maniquí podía reponer preguntas sobre un pasaje de texto sin tener entrada al pasaje durante el interrogatorio. Finetuning Ardor-3.2-1b en el texto sin procesar proporcionó solo una perfeccionamiento insignificante sobre el maniquí saco.
Sin bloqueo, cuando el maniquí de sello creó “autoedits” al suscitar varias “implicaciones” de un pasaje y fue entrenado en estos datos sintéticos, su precisión aumentó al 47%. En particular, esto superó los resultados del uso de datos sintéticos generados por el GPT-4.1 mucho más extenso, lo que sugiere que el maniquí aprendió a crear material de entrenamiento superior para sí mismo.

Para un educación de pocos disparos, los investigadores probaron sellos en ejemplos del Corpus de razonamiento universal (ARC), donde el maniquí debe resolver los rompecabezas visuales. En la período autoedit, el maniquí tuvo que suscitar toda la logística de acondicionamiento, incluido el aumento de los datos y las herramientas para usar y qué tasa de educación aplicar.
El sello logró una tasa de éxito del 72.5%, una perfeccionamiento dramática sobre la tasa del 20% lograda sin capacitación RL y la tasa del 0% de educación tipificado en contexto.

Implicaciones para la empresa
Algunos expertos proyectan que el suministro de datos de capacitación generados por humanos de entrada calidad podría agotarse en los próximos primaveras. El progreso pronto puede pender de “la capacidad de un maniquí para suscitar su propia señal de entrenamiento de entrada utilidad”, como lo expresaron los investigadores. Agregan: “Un subsiguiente paso natural es un meta-entrenado un maniquí de procreador de datos sintéticos de sello dedicado que produce corpus frescos de pretrenesa, lo que permite que los modelos futuros ascender y ganar una veterano eficiencia de datos sin pender de texto humano adicional”.
Por ejemplo, los investigadores proponen que una LLM podría ingerir documentos complejos como documentos académicos o informes financieros y suscitar de forma autónoma miles de explicaciones e implicaciones para profundizar su comprensión.
“Este caracolillo iterativo de autoexpresión y autocuración podría permitir que los modelos sigan mejorando en temas raros o subrepresentados incluso en partida de supervisión externa adicional”, explican los investigadores.
Esta capacidad es especialmente prometedora para construir agentes de IA. Los sistemas de agente deben apoderarse y retener de forma incremental el conocimiento a medida que interactúan con su entorno. El sello proporciona un mecanismo para esto. Posteriormente de una interacción, un agente podría sintetizar una autoedit para activar una puesta al día de peso, lo que le permite internalizar las lecciones aprendidas. Esto permite al agente ponerse al día con el tiempo, mejorar su rendimiento en función de la experiencia y disminuir su dependencia de la programación estática o la orientación humana repetida.
“El sello demuestra que los modelos de idioma extenso no necesitan permanecer estáticos posteriormente del previación”, escriben los investigadores. “Al educarse a suscitar sus propios datos sintéticos autoeditados y aplicarlos a través de actualizaciones livianas de peso, pueden incorporar de forma autónoma un nuevo conocimiento y adaptarse a tareas novedosas”.
Limitaciones del sello
Dicho esto, el sello no es una posibilidad universal. Por ejemplo, puede sufrir un “olvido catastrófico”, donde los ciclos de capacitación constantes pueden dar como resultado que el maniquí aprenda su conocimiento antedicho.
“En nuestra implementación flagrante, fomentamos un enfoque híbrido”, dijo Pari. “Las empresas deben ser selectivas sobre qué conocimiento es lo suficientemente importante como para integrarse de forma permanente”.
Los datos objetivos y en cambio pueden permanecer en la memoria externa a través de RAG, mientras que el conocimiento de la forma del comportamiento de larga duración es más adecuado para las actualizaciones del nivel de peso a través del sello.
“Este tipo de logística de memoria híbrida asegura que la información correcta sea persistente sin angustiar al maniquí o introducir el olvido innecesario”, dijo.
Igualmente vale la pena señalar que SEAL toma una cantidad de tiempo no trivial para ajustar los ejemplos autoeditados y capacitar al maniquí. Esto hace que la tirada continua y en tiempo existente sea inviable en la mayoría de los entornos de producción.
“Imaginamos un maniquí de implementación más práctico donde el sistema recopila datos durante un período, por ejemplo, unas pocas horas o un día, y luego realiza coche edificios específicos durante los intervalos de puesta al día programados”, dijo Pari. “Este enfoque permite a las empresas controlar el costo de la acondicionamiento al tiempo que se beneficia de la capacidad de Seal para internalizar nuevos conocimientos”.





