El molde de ‘formación anidado’ de Google podría resolver el problema de la memoria y el formación continuo de la IA

El molde de ‘formación anidado’ de Google podría resolver el problema de la memoria y el formación continuo de la IA

Investigadores de Google han desarrollado un nuevo molde de IA destinado a resolver una de las mayores limitaciones de los grandes modelos lingüísticos actuales: su incapacidad para memorizar o refrescar sus conocimientos luego del entrenamiento. El molde, llamado Enseñanza anidadoreformula un maniquí y su entrenamiento no como un proceso único, sino como un sistema de problemas de optimización anidados de múltiples niveles. Los investigadores sostienen que este enfoque puede desbloquear algoritmos de formación más expresivos, lo que conduce a un mejor formación y memoria en contexto.

Para probar su concepto, los investigadores utilizaron Nested Learning para desarrollar un nuevo maniquí, llamado Hope. Los experimentos iniciales muestran que tiene un rendimiento superior en el modelado del habla, el formación continuo y las tareas de razonamiento de contexto prolongado, lo que potencialmente allana el camino para sistemas de inteligencia fabricado eficientes que pueden adaptarse a entornos del mundo vivo.

El problema de la memoria de los grandes modelos lingüísticos.

Algoritmos de formación profundo ayudó a obviar la pobreza de la ingeniería cuidadosa y la experiencia en el dominio que requiere el formación espontáneo tradicional. Al avituallar a los modelos con grandes cantidades de datos, podrían memorizar las representaciones necesarias por sí mismos. Sin incautación, este enfoque presentaba su propio conjunto de desafíos que no podían resolverse simplemente apilando más capas o creando redes más grandes, como divulgar a nuevos datos, memorizar continuamente nuevas tareas y evitar soluciones subóptimas durante el entrenamiento.

Los esfuerzos para pasar estos desafíos llevaron a las innovaciones que llevaron a Transformadoresla pulvínulo de los grandes modelos de habla (LLM) actuales. Estos modelos han traumatizado el aparición "un cambio de molde de modelos de tareas específicas a sistemas de propósito más universal con diversas capacidades emergentes como resultado de subir las arquitecturas “correctas”," escriben los investigadores. Aun así, persiste una demarcación fundamental: los LLM son en gran medida estáticos luego de la formación y no pueden refrescar sus conocimientos básicos ni apropiarse nuevas habilidades a partir de nuevas interacciones.

El único componente adaptable de un LLM es su formación en contexto capacidad, que le permite realizar tareas basadas en la información proporcionada en su aviso inmediato. Esto hace que los LLM actuales sean análogos a una persona que no puede formar nuevos memorias a liberal plazo. Su conocimiento se limita a lo que aprendieron durante la capacitación previa (el pasado distante) y lo que hay en su ventana de contexto contemporáneo (el presente inmediato). Una vez que una conversación excede la ventana de contexto, esa información se pierde para siempre.

El problema es que los LLM actuales basados ​​en transformadores no tienen ningún mecanismo para la consolidación “en rasgo”. La información en la ventana contextual nunca actualiza los parámetros a liberal plazo del maniquí: los pesos almacenados en sus capas de avance. Como resultado, el maniquí no puede apropiarse permanentemente nuevos conocimientos o habilidades a partir de las interacciones; todo lo que aprende desaparece tan pronto como la ventana de contexto se desplaza.

Un enfoque anidado para el formación

Nested Learning (NL) está diseñado para permitir que los modelos computacionales aprendan de los datos utilizando diferentes niveles de noción y escalas de tiempo, de forma muy parecida al cerebro. Tráfico un único maniquí de formación espontáneo no como un proceso continuo, sino como un sistema de problemas de formación interconectados que se optimizan simultáneamente a diferentes velocidades. Esto supone un alejamiento de la visión clásica, que prostitución la bloque de un maniquí y su operación de optimización como dos componentes separados.

Bajo este molde, se considera que el proceso de formación desarrolla una "memoria asociativa," la capacidad de conectar y recapacitar piezas de información relacionadas. El maniquí aprende a asignar un punto de datos a su error recinto, que mide cómo "sorprendente" ese punto de datos era. Incluso los componentes arquitectónicos secreto, como el mecanismo de atención en los transformadores, pueden hallarse como simples módulos de memoria asociativa que aprenden asignaciones entre tokens. Al explicar una frecuencia de puesta al día para cada componente, estos problemas de optimización anidados se pueden ordenar en diferentes "niveles," formando el núcleo del molde de NL.

Esperanza de formación continuo.

Los investigadores pusieron en ejercicio estos principios con Hope, una bloque diseñada para incorporar el formación anidado. Hope es una lectura modificada de Titanesotra bloque que Google introdujo en enero para asaltar las limitaciones de memoria del maniquí transformador. Si correctamente los Titanes tenían un poderoso sistema de memoria, sus parámetros se actualizaban solo a dos velocidades diferentes: un módulo de memoria a liberal plazo y un mecanismo de memoria a corto plazo.

Hope es una bloque automodificable aumentada con un "Sistema de memoria continua" (CMS) que permite niveles ilimitados de formación en contexto y escalera a ventanas contextuales más grandes. El CMS actúa como una serie de bancos de memoria, cada uno de los cuales se actualiza a una frecuencia diferente. Los bancos que se actualizan más rápidamente manejan información inmediata, mientras que los más lentos consolidan conocimientos más abstractos durante períodos más largos. Esto permite que el maniquí optimice su propia memoria en un onda autorreferencial, creando una bloque con niveles de formación teóricamente infinitos.

En un conjunto diverso de tareas de modelado del habla y razonamiento de sentido global, Hope demostró una beocio perplejidad (una medida de qué tan correctamente un maniquí predice la ulterior palabra en una secuencia y mantiene la coherencia en el texto que genera) y una longevo precisión en comparación con los transformadores tipificado y otros modelos recurrentes modernos. Hope igualmente obtuvo mejores resultados en el contexto a liberal plazo "Manilla en el pajar" Tareas en las que un maniquí debe encontrar y utilizar una información específica oculta en el interior de un gran grosor de texto. Esto sugiere que su CMS ofrece una forma más válido de manejar largas secuencias de información.

Este es uno de varios esfuerzos para crear sistemas de inteligencia fabricado que procesen información en diferentes niveles. Maniquí de razonamiento jerárquico (HRM) de Sapient Intelligence, utilizó una bloque jerárquica para hacer que el maniquí sea más válido en tareas de formación y razonamiento. Maniquí de razonamiento diminuto (TRM), un maniquí de Samsung, prosperidad HRM realizando cambios en la bloque, mejorando su rendimiento y haciéndolo más válido.

Si correctamente es prometedor, Nested Learning enfrenta algunos de los mismos desafíos que estos otros paradigmas para alcanzar su mayor potencial. Las pilas actuales de hardware y software de IA están fuertemente optimizadas para las arquitecturas clásicas de formación profundo y los modelos Transformer en particular. La apadrinamiento del formación anidado a escalera puede requerir cambios fundamentales. Sin incautación, si anhelo contorno, podría conducir a LLM mucho más eficientes que puedan memorizar continuamente, una capacidad crucial para las aplicaciones empresariales del mundo vivo donde los entornos, los datos y las deyección de los usuarios están en constante cambio.

Related Posts

AMD afirma que no tenía conocimiento de las CPU Ryzen 5 7430U falsas en las computadoras portátiles Chuwi: el proveedor chino anuncia el retiro de productos y reembolsos, el fabricante de PCB podría ser el culpable

AMD ha respondido al flamante escándalo de Chuwi, donde ciertos modelos de portátiles con procesadores Ryzen 5 5500U obsoletos fueron etiquetados falsamente como variantes 7430U más nuevas. De acuerdo a…

Encontré una mini PC que supera esta proposición de computadora portátil HP en Best Buy

La computadora portátil HP EliteBook recibió un gran recortadura de precio en Best Buy, pasando de un deslumbrante $ 3759 a $ 1399un sólido descuento del 63 por ciento. Por…

You Missed

AMD afirma que no tenía conocimiento de las CPU Ryzen 5 7430U falsas en las computadoras portátiles Chuwi: el proveedor chino anuncia el retiro de productos y reembolsos, el fabricante de PCB podría ser el culpable

AMD afirma que no tenía conocimiento de las CPU Ryzen 5 7430U falsas en las computadoras portátiles Chuwi: el proveedor chino anuncia el retiro de productos y reembolsos, el fabricante de PCB podría ser el culpable

¿Cómo evitar los mareos al levantarse rápido?

¿Cómo evitar los mareos al levantarse rápido?

Oficial Abreu García reafirma liderazgo comunitario en Nueva York tras trayectoria marcada por resiliencia

Oficial Abreu García reafirma liderazgo comunitario en Nueva York tras trayectoria marcada por resiliencia

Pacheco afirma hay condiciones para producir reforma educativa

Pacheco afirma hay condiciones para producir reforma educativa

Estos son los artistas que actuarán en Premios Soberano 2026

Estos son los artistas que actuarán en Premios Soberano 2026

Encontré una mini PC que supera esta proposición de computadora portátil HP en Best Buy

Encontré una mini PC que supera esta proposición de computadora portátil HP en Best Buy