Más allá de la IA estática: el nuevo entorno del MIT permite que los modelos se enseñen a sí mismos


Únase al evento confiable por los líderes empresariales durante casi dos décadas. VB Transform reúne a las personas que construyen una logística de IA empresarial existente. Obtenga más información


Investigadores de CON han desarrollado un entorno llamado Modelos de idioma autoadapentamiento (Sello) que permite que los modelos de idiomas grandes (LLM) aprendan y se adaptan continuamente actualizando sus propios parámetros internos. Seal enseña a una LLM a suscitar sus propios datos de capacitación y modernizar instrucciones, lo que le permite absorber permanentemente nuevos conocimientos y educarse nuevas tareas.

Este entorno podría ser útil para las aplicaciones empresariales, particularmente para los agentes de IA que operan en entornos dinámicos, donde deben procesar constantemente nueva información y adaptar su comportamiento.

El desafío de adaptar LLM

Si perfectamente los modelos de idiomas grandes han mostrado habilidades notables, adaptarlos a tareas específicas, integrar nueva información o dominar nuevas habilidades de razonamiento sigue siendo un obstáculo significativo.

Actualmente, cuando se enfrenta a una nueva tarea, los LLM generalmente aprenden de los datos “as-es” a través de métodos como Finetuning o en contexto. Sin bloqueo, los datos proporcionados no siempre están en un formato espléndido para que el maniquí aprenda de forma valioso. Los enfoques existentes no permiten que el maniquí desarrolle sus propias estrategias para la mejor transformación y educación de la nueva información.

“Muchos casos de uso empresarial exigen más que solo un retiro de hechos: requieren una acondicionamiento más profunda y persistente”, dijo a VentureBeat Jyo Pari, estudiante de doctorado del MIT y coautor del publicación. “Por ejemplo, un asistente de codificación podría escasear internalizar el entorno de software específico de una empresa, o un maniquí orientado al cliente podría escasear educarse el comportamiento o las preferencias únicas de un agraciado a lo grande del tiempo”.

En tales casos, la recuperación temporal se queda corta, y el conocimiento debe “hornear” los pesos del maniquí para que influya en todas las respuestas futuras.

Creación de modelos de idioma autoadaptador

“Como un paso cerca de la acondicionamiento escalable y valioso de los modelos de idioma, proponemos equipar los LLM con la capacidad de suscitar sus propios datos de capacitación y las directivas de finete para usar dichos datos”, afirman los investigadores del MIT en su artículo.

Descripción general del marco del sello (Fuente: ARXIV)
Descripción normal del entorno del sello Fuente: ARXIV

La posibilidad de los investigadores es el sello, sigla de modelos de idioma de autoadaptación. Utiliza un operación de educación de refuerzo (RL) para entrenar un LLM para suscitar “autoedits”, instrucciones en idioma natural que especifican cómo el maniquí debe modernizar sus propios pesos. Estas autoedits pueden reestructurar nueva información, crear ejemplos de capacitación sintética o incluso constreñir los parámetros técnicos para el proceso de educación en sí.

Intuitivamente, Seal enseña un maniquí cómo crear su propia monitor de estudio personalizada. En circunscripción de solo acertar un nuevo documento (los datos sin procesar), el maniquí aprende a reescribir y reformatear esa información en un estilo que puede absorber e internalizar más fácilmente. Este proceso reúne varias áreas secreto de la investigación de IA, incluida la vivientes de datos sintéticos, el educación de refuerzo y la capacitación en el tiempo de prueba (TTT).

El entorno funciona en un sistema de dos bucles. En un “caracolillo interno”, el maniquí utiliza un autoedit para realizar una pequeña puesta al día temporal de sus pesos. En un “caracolillo foráneo”, el sistema evalúa si esa puesta al día mejoró el rendimiento del maniquí en una tarea de destino. Si lo hizo, el maniquí recibe una premio positiva, reforzando su capacidad para suscitar ese tipo de autoedit efectivo en el futuro. Con el tiempo, la LLM se convierte en un experimentado en enseñarse.

En su estudio, los investigadores utilizaron un maniquí único para todo el entorno del sello. Sin bloqueo, igualmente señalan que este proceso se puede desacoplar en un maniquí de “maestro-estudiante”. Un maniquí de experto especializado podría ser capacitado para suscitar autoedits efectivos para un maniquí de estudiante separado, que luego se actualizaría. Este enfoque podría permitir tuberías de acondicionamiento más especializadas y eficientes en entornos empresariales.

Sello en bono

Los investigadores probaron el sello en dos dominios secreto: la incorporación del conocimiento (la capacidad de integrar permanentemente los nuevos hechos) y el educación de pocos disparos (la capacidad de ampliar a partir de un puñado de ejemplos).

Sello en la incorporación de conocimiento (Fuente: ARXIV)
Fuente de incorporación de sello en el conocimiento: ARXIV

Para la incorporación del conocimiento, el objetivo era ver si el maniquí podía reponer preguntas sobre un pasaje de texto sin tener entrada al pasaje durante el interrogatorio. Finetuning Ardor-3.2-1b en el texto sin procesar proporcionó solo una perfeccionamiento insignificante sobre el maniquí saco.

Sin bloqueo, cuando el maniquí de sello creó “autoedits” al suscitar varias “implicaciones” de un pasaje y fue entrenado en estos datos sintéticos, su precisión aumentó al 47%. En particular, esto superó los resultados del uso de datos sintéticos generados por el GPT-4.1 mucho más extenso, lo que sugiere que el maniquí aprendió a crear material de entrenamiento superior para sí mismo.

SELLO EN PEQUEÑO Aprendizaje (Fuente: ARXIV)
SELLO EN LA FUENTE DE APRENDIZACIÓN DE PECLOS

Para un educación de pocos disparos, los investigadores probaron sellos en ejemplos del Corpus de razonamiento universal (ARC), donde el maniquí debe resolver los rompecabezas visuales. En la período autoedit, el maniquí tuvo que suscitar toda la logística de acondicionamiento, incluido el aumento de los datos y las herramientas para usar y qué tasa de educación aplicar.

El sello logró una tasa de éxito del 72.5%, una perfeccionamiento dramática sobre la tasa del 20% lograda sin capacitación RL y la tasa del 0% de educación tipificado en contexto.

El sello (línea roja) continúa mejorando en los ciclos RL (Fuente: ARXIV)
El sello (confín roja) continúa mejorando en la fuente de los ciclos RL: ARXIV

Implicaciones para la empresa

Algunos expertos proyectan que el suministro de datos de capacitación generados por humanos de entrada calidad podría agotarse en los próximos primaveras. El progreso pronto puede pender de “la capacidad de un maniquí para suscitar su propia señal de entrenamiento de entrada utilidad”, como lo expresaron los investigadores. Agregan: “Un subsiguiente paso natural es un meta-entrenado un maniquí de procreador de datos sintéticos de sello dedicado que produce corpus frescos de pretrenesa, lo que permite que los modelos futuros ascender y ganar una veterano eficiencia de datos sin pender de texto humano adicional”.

Por ejemplo, los investigadores proponen que una LLM podría ingerir documentos complejos como documentos académicos o informes financieros y suscitar de forma autónoma miles de explicaciones e implicaciones para profundizar su comprensión.

“Este caracolillo iterativo de autoexpresión y autocuración podría permitir que los modelos sigan mejorando en temas raros o subrepresentados incluso en partida de supervisión externa adicional”, explican los investigadores.

Esta capacidad es especialmente prometedora para construir agentes de IA. Los sistemas de agente deben apoderarse y retener de forma incremental el conocimiento a medida que interactúan con su entorno. El sello proporciona un mecanismo para esto. Posteriormente de una interacción, un agente podría sintetizar una autoedit para activar una puesta al día de peso, lo que le permite internalizar las lecciones aprendidas. Esto permite al agente ponerse al día con el tiempo, mejorar su rendimiento en función de la experiencia y disminuir su dependencia de la programación estática o la orientación humana repetida.

“El sello demuestra que los modelos de idioma extenso no necesitan permanecer estáticos posteriormente del previación”, escriben los investigadores. “Al educarse a suscitar sus propios datos sintéticos autoeditados y aplicarlos a través de actualizaciones livianas de peso, pueden incorporar de forma autónoma un nuevo conocimiento y adaptarse a tareas novedosas”.

Limitaciones del sello

Dicho esto, el sello no es una posibilidad universal. Por ejemplo, puede sufrir un “olvido catastrófico”, donde los ciclos de capacitación constantes pueden dar como resultado que el maniquí aprenda su conocimiento antedicho.

“En nuestra implementación flagrante, fomentamos un enfoque híbrido”, dijo Pari. “Las empresas deben ser selectivas sobre qué conocimiento es lo suficientemente importante como para integrarse de forma permanente”.

Los datos objetivos y en cambio pueden permanecer en la memoria externa a través de RAG, mientras que el conocimiento de la forma del comportamiento de larga duración es más adecuado para las actualizaciones del nivel de peso a través del sello.

“Este tipo de logística de memoria híbrida asegura que la información correcta sea persistente sin angustiar al maniquí o introducir el olvido innecesario”, dijo.

Igualmente vale la pena señalar que SEAL toma una cantidad de tiempo no trivial para ajustar los ejemplos autoeditados y capacitar al maniquí. Esto hace que la tirada continua y en tiempo existente sea inviable en la mayoría de los entornos de producción.

“Imaginamos un maniquí de implementación más práctico donde el sistema recopila datos durante un período, por ejemplo, unas pocas horas o un día, y luego realiza coche edificios específicos durante los intervalos de puesta al día programados”, dijo Pari. “Este enfoque permite a las empresas controlar el costo de la acondicionamiento al tiempo que se beneficia de la capacidad de Seal para internalizar nuevos conocimientos”.


Related Posts

Compartir ubicación en tiempo auténtico de Mensajes de Google se implementa en Android

Tras el anuncio a principios de este mes, el uso compartido de ubicación en tiempo auténtico en Google Messages para Android se está implementando de forma más amplia. Una vez…

El Museo de Historia de la Computación continúa las celebraciones de Apple con TechFest

Luego del quimérico panel Apple@50 de la semana pasada, el Museo de Historia de la Computación anunció el “TechFest: Acertado cumpleaños, Apple”, que se llevará a extremo el 28 de…

You Missed

Gobierno anuncia medidas para proteger a los sectores vulnerables frente a impacto de la hostilidades en Medio Oriente

Gobierno anuncia medidas para proteger a los sectores vulnerables frente a impacto de la hostilidades en Medio Oriente

Compartir ubicación en tiempo auténtico de Mensajes de Google se implementa en Android

Compartir ubicación en tiempo auténtico de Mensajes de Google se implementa en Android

Odette Hidalgo postura por el bienestar en la nueva temporada de su podcast

Odette Hidalgo postura por el bienestar en la nueva temporada de su podcast

Archivos sobre Trump desaparecen en divulgación del caso Epstein y generan dudas sobre Imparcialidad de EE.UU.

Archivos sobre Trump desaparecen en divulgación del caso Epstein y generan dudas sobre Imparcialidad de EE.UU.

Dice «incapacidad» Gobierno causa más daño que corrupción | AlMomento.net

Dice «incapacidad» Gobierno causa más daño que corrupción | AlMomento.net

El Museo de Historia de la Computación continúa las celebraciones de Apple con TechFest

El Museo de Historia de la Computación continúa las celebraciones de Apple con TechFest