El nuevo método de entrenamiento de IA de Microsoft elimina las indicaciones infladas del sistema sin ofrecer el rendimiento del maniquí

El nuevo método de entrenamiento de IA de Microsoft elimina las indicaciones infladas del sistema sin ofrecer el rendimiento del maniquí

Al crear aplicaciones LLM, las empresas a menudo tienen que crear mensajes de sistema muy largos para ajustar el comportamiento del maniquí para sus aplicaciones. Estas indicaciones contienen conocimientos de la empresa, preferencias e instrucciones específicas de la aplicación. A escalera empresarial, estos contextos pueden impulsar la latencia de inferencia más allá de los umbrales aceptables y aumentar significativamente los costos por consulta.

Destilación del contexto político (OPCD), un nuevo entorno de capacitación propuesto por investigadores de Microsoft, ayuda a integrar el conocimiento y las preferencias de las aplicaciones directamente en un maniquí. OPCD utiliza las propias respuestas del maniquí durante el entrenamiento, lo que evita algunos de los inconvenientes de otras técnicas de entrenamiento. Esto prosperidad las capacidades de los modelos para aplicaciones personalizadas preservando al mismo tiempo sus capacidades generales.

Por qué los avisos prolongados del sistema se convierten en una responsabilidad

Estudios en contexto permite a los desarrolladores renovar el comportamiento de un maniquí en el momento de la inferencia sin modificar sus parámetros subyacentes. La puesta al día de parámetros suele ser un proceso pausado y costoso. Sin incautación, el conocimiento en contexto es transitorio. Este conocimiento no se transmite a través de diferentes conversaciones con el maniquí, lo que significa que debe respaldar al maniquí exactamente con el mismo conjunto masivo de instrucciones o documentos cada vez. Para una aplicación empresarial, esto podría significar pegar repetidamente políticas de la empresa, tickets de clientes o manuales técnicos densos en el mensaje. Esto eventualmente ralentiza el maniquí, aumenta los costos y puede confundir al sistema.

“Las empresas suelen utilizar mensajes largos del sistema para imponer restricciones de seguridad (por ejemplo, detección de discursos de odio) o para proporcionar experiencia en un dominio específico (por ejemplo, conocimientos médicos)”, dijo Tianzhu Ye, coautor del artículo e investigador de Microsoft Research Asia, en comentarios proporcionados a VentureBeat. “Sin incautación, las indicaciones prolongadas aumentan significativamente la sobrecarga computacional y la latencia en el momento de la inferencia”.

La idea principal detrás de la destilación del contexto es entrenar un maniquí para internalizar la información que se inserta repetidamente en el contexto. como otros técnicas de destilaciónsigue un tipo profesor-alumno. El profesor es un maniquí de IA que recibe indicaciones masivas y detalladas. Al tener todas las instrucciones y documentos de remisión, genera respuestas mucho personalizadas. El estudiante es un maniquí en formación que sólo ve la pregunta principal y no tiene comunicación al contexto completo. Su objetivo es simplemente observar las respuestas del profesor y educarse a imitar su comportamiento.

A través de este proceso de capacitación, el maniquí del estudiante comprime efectivamente las instrucciones complejas del mensaje del pedagogo directamente en sus parámetros. Para una empresa, el valencia principal ocurre en el momento de la inferencia. Oportuno a que el maniquí de estudiante ha internalizado el contexto, puede implementarlo en su aplicación sin exigencia de retornar a pegar las largas instrucciones. Esto hace que el maniquí sea significativamente más rápido y con mucha menos sobrecarga computacional.

Sin incautación, la destilación de contexto clásica se podio en un método de entrenamiento defectuoso llamado “entrenamiento fuera de políticas”, donde el maniquí se entrena en conjuntos de datos fijos que se recopilaron antiguamente del proceso de entrenamiento. Esto es problemático en varios sentidos. Durante el entrenamiento, el estudiante solo está expuesto a datos reales y a respuestas generadas por el pedagogo, creando lo que Ye claridad "sesgo de exposición." En producción, el maniquí debe crear sus propias secuencias de tokens para entrar a esas respuestas. Oportuno a que nunca practicó la toma de sus propias decisiones o la recuperación de sus propios errores durante el entrenamiento, puede descarrilarse fácilmente cuando opera de forma independiente. Es como mostrarle a un estudiante videos de un conductor profesional y esperar que aprenda a conducir sin prueba ni error.

Otro problema es el “delante” Diferencia Kullback-Leibler (KL)“medida de minimización utilizada para entrenar el maniquí. Bajo este método, el maniquí se califica según la similitud de sus respuestas con las del pedagogo, lo que fomenta "cobertura de modo" comportamiento, dice Ye. El maniquí del estudiante suele ser más pequeño o carece del rico contexto que tenía el profesor, lo que significa que simplemente carece de la capacidad de replicar perfectamente el confuso razonamiento del profesor. Oportuno a que el estudiante se ve obligado a tratar de cubrir todas esas posibilidades de todos modos, sus conjeturas subyacentes se vuelven demasiado amplias y desenfocadas.

En aplicaciones del mundo positivo, esto puede provocar alucinaciones, en las que la IA se confunde e inventa cosas con confianza porque intenta imitar una profundidad de conocimiento que en efectividad no posee. Además significa que el maniquí no puede generalizarse aceptablemente a nuevas tareas.

Cómo la OPCD soluciona el problema profesor-alumno

Para solucionar los problemas críticos de la antigua dinámica profesor-alumno, los investigadores de Microsoft introdujeron la destilación del contexto en políticas (OPCD). El cambio más importante en la OPCD es que el maniquí estudiantil aprende de sus propias trayectorias generacionales en lado de un conjunto de datos paralizado (por eso se le claridad “sobre políticas”). En lado de estudiar pasivamente un conjunto de datos de los resultados perfectos del profesor, al estudiante se le asigna una tarea sin ver la instrucción masiva y tiene que crear una respuesta completamente por sí solo.

A medida que el estudiante genera su respuesta, el pedagogo actúa como un instructor en vivo. El profesor tiene comunicación al mensaje completo y personalizado y evalúa el resultado del estudiante. En cada paso de la procreación del estudiante, el sistema compara la distribución de fichas del estudiante con lo que haría el pedagogo consciente del contexto.

OPCD utiliza “desajuste KL inversa” para clasificar al estudiante. “Al minimizar la desajuste inversa de KL, promueve el comportamiento de ‘búsqueda de modo’. Se centra en regiones de suscripción probabilidad de la distribución del estudiante”, dijo Ye. “Suprime las fichas que el estudiante considera improbables, incluso si la creencia del profesor les asigna una suscripción probabilidad. Esta adscripción ayuda al estudiante a corregir sus propios errores y evitar las distribuciones amplias y alucinatorias de la destilación típico”.

Oportuno a que el maniquí de estudiante practica activamente la toma de sus propias decisiones y aprende a corregir sus propios errores durante el entrenamiento, se comporta de modo más confiable cuando se implementa en una aplicación en vivo. Incorpora con éxito reglas comerciales complejas, restricciones de seguridad o conocimientos especializados directamente en su memoria permanente.

Lo que ofrece la OPCD: los resultados de remisión

Los investigadores probaron OPCD en dos áreas esencia: destilación del conocimiento experiencial y destilación rápida del sistema. Para destilar el conocimiento experiencial, los investigadores querían ver si un LLM podía educarse de sus propios éxitos pasados ​​y adoptar esas lecciones de forma permanente. Probaron esto en modelos de varios tamaños, utilizando problemas de razonamiento matemático.

Primero, el maniquí resolvió problemas y se le pidió que escribiera reglas generales que aprendió de sus éxitos. Luego, utilizando OPCD, incorporaron esas lecciones escritas directamente a los parámetros del maniquí. Los resultados mostraron que los modelos mejoraron dramáticamente sin exigencia de pegar la experiencia aprendida en sus indicaciones. En problemas matemáticos complejos, un maniquí de 8 mil millones de parámetros mejoró desde una colchoneta del 75,0% al 80,9%. Por ejemplo, en el bisagra de navegación Frozen Lake, un pequeño maniquí de 1.700 millones de parámetros tuvo inicialmente una tasa de éxito del 6,3%. Posteriormente de que OPCD incorporara la experiencia aprendida, su precisión saltó al 38,3%.

La segunda serie de experimentos se realizó con indicaciones largas del sistema. Las empresas suelen utilizar indicaciones masivas del sistema para hacer cumplir estrictas pautas de comportamiento, como nutrir un tono profesional, asegurar la precisión médica o filtrar el estilo tóxico. Los investigadores probaron si OPCD podría incorporar permanentemente estas densas reglas de comportamiento en los modelos para que no tuvieran que enviarse con cada consulta de favorecido. Sus experimentos muestran que OPCD internalizó con éxito estas reglas complejas y mejoró enormemente el rendimiento. Al probar un maniquí Flama de 3 mil millones de parámetros sobre clasificación de seguridad y toxicidad, el maniquí colchoneta obtuvo una puntuación del 30,7%. Posteriormente de utilizar OPCD para internalizar el aviso de seguridad, su precisión aumentó al 83,1%. En cuanto a las respuestas a preguntas médicas, el mismo maniquí mejoró del 59,4% al 76,3%.

Uno de los desafíos esencia del ajuste de modelos es olvido catastróficodonde el maniquí se centra demasiado en la tarea de ajuste y empeora en las tareas generales. Los investigadores rastrearon el rendimiento fuera de distribución para probar esta visión de túnel. Cuando plasmaron estrictas reglas de seguridad en un maniquí, inmediatamente probaron su capacidad para reponer preguntas médicas no relacionadas. OPCD mantuvo con éxito el conocimiento médico normal del maniquí, superando a los antiguos métodos fuera de política en aproximadamente 4 puntos porcentuales. Se especializó sin perder su inteligencia más amplia.

Dónde encaja la OPCD y dónde no

Si aceptablemente OPCD es una aparejo poderosa para internalizar conocimiento paralizado y reglas complejas, no reemplaza todos los métodos de contexto extranjero. “RAG es mejor cuando la información requerida es muy dinámica o involucra una colchoneta de datos externa masiva y frecuentemente actualizada que no se puede comprimir en pesos de maniquí”, dijo Ye.

Para los equipos empresariales que evalúan sus proyectos, la asimilación de OPCD no requiere revisar los sistemas existentes ni volver en hardware especializado. “La OPCD se puede integrar en los flujos de trabajo existentes con muy poca fricción”, afirmó Ye. “Cualquier equipo que ya esté ejecutando canalizaciones RLVR (estudios reforzado a partir de recompensas verificables) típico puede adoptar OPCD sin cambios arquitectónicos importantes”.

En la destreza, el maniquí de estudiante actúa como maniquí de políticas que realiza implementaciones, mientras que el maniquí de pedagogo congelado sirve como remisión proporcionando logits. Los requisitos de hardware son muy accesibles. Según Ye, los equipos empresariales pueden reproducir los experimentos de los investigadores utilizando unas ocho GPU A100.

Los requisitos de datos son igualmente livianos. Para la destilación del conocimiento experiencial, los desarrolladores solo necesitan más o menos de 30 ejemplos iniciales para crear rastros de soluciones. Oportuno a que la técnica se aplica a entornos previamente no optimizados, incluso una pequeña cantidad de datos produce la maduro parte de la prosperidad del rendimiento. Para la destilación de indicaciones del sistema, las indicaciones optimizadas existentes y los conjuntos de datos de tareas típico son suficientes.

Los investigadores construyeron su propia implementación en perdidouna colchoneta de código RLVR de código amplio, que demuestra que la técnica encaja perfectamente internamente de los marcos de estudios por refuerzo convencionales. Planean difundir su implementación como código amplio luego de revisiones internas.

El maniquí de superación personal: lo que viene a posteriori

De cara al futuro, OPCD allana el camino para modelos verdaderamente automejorables que se adaptan continuamente a entornos empresariales personalizados. Una vez implementado, un maniquí puede extraer lecciones de interacciones del mundo positivo y utilizar OPCD para internalizar progresivamente esas características sin requerir supervisión manual o anotación de datos por parte de los capacitadores del maniquí.

“Esto representa un cambio de tipo fundamental en la prosperidad del maniquí: las mejoras principales del maniquí pasarían del tiempo de entrenamiento al tiempo de prueba”, dijo Ye. “Utilizar el maniquí y permitirle acumular experiencia se convertiría en el principal motor de su avance”.

Related Posts

El thriller de 2000 de Christopher Nolan es una de las mejores películas de HBO Max en este momento

Nuevo mercado Christopher Nolan es conocido por algunas grandes películas como “Inception”, “Oppenheimer”, “Dunkirk” e “Interstellar”. Por supuesto, incluso es agradecido por…

Ignorar la regla de “nunca comprar un SSD usado” para unidades empresariales es el truco definitivo para la construcción de PC

Es tentador comprar cualquier cuarto de PC usada que pueda teniendo en cuenta lo caro que está el mercado en este momento. Por lo caudillo, no se recomienda comprar SSD…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

El thriller de 2000 de Christopher Nolan es una de las mejores películas de HBO Max en este momento

El thriller de 2000 de Christopher Nolan es una de las mejores películas de HBO Max en este momento

EE.UU. levanta sanciones para explotación oro en Venezuela | AlMomento.net

EE.UU. levanta sanciones para explotación oro en Venezuela | AlMomento.net

Ignorar la regla de “nunca comprar un SSD usado” para unidades empresariales es el truco definitivo para la construcción de PC

Ignorar la regla de “nunca comprar un SSD usado” para unidades empresariales es el truco definitivo para la construcción de PC

TNR y Bandada Agrícola invierten RD$10 millones en modernización de riego en Bahoruco y Barahona

TNR y Bandada Agrícola invierten RD millones en modernización de riego en Bahoruco y Barahona

Carreteras nuevas y conductas viejas – Remolacha

Carreteras nuevas y conductas viejas – Remolacha

Una dominicana liderará la agencia de educación superior de Nueva York – Remolacha

Una dominicana liderará la agencia de educación superior de Nueva York – Remolacha