Estudios de ajuste fino contra en contexto: nuevas guías de investigación LLM Personalización para tareas del mundo verdadero


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Dos enfoques populares para personalizar modelos de idiomas grandes (LLM) para tareas aguas debajo son ajuste y formación en contexto (ICL). En estudio nuevoInvestigadores de la Universidad de Google Deepmind y Stanford exploraron las capacidades de divulgación de estos dos métodos. Encuentran que ICL tiene una veterano capacidad de divulgación (aunque tiene un costo de cálculo más suspensión durante la inferencia). Todavía proponen un enfoque novedoso para obtener lo mejor de uno y otro mundos.

Los hallazgos pueden ayudar a los desarrolladores a tomar decisiones cruciales al construir aplicaciones LLM para sus datos empresariales a medida.

Probar cómo los modelos de idiomas aprenden nuevos trucos

Sintonia FINA implica tomar un LLM previamente capacitado y capacitarlo aún más en un conjunto de datos especializado y más pequeño. Esto ajusta los parámetros internos del maniquí para enseñarle nuevos conocimientos o habilidades. El formación en contexto (ICL), por otro banda, no cambia los parámetros subyacentes del maniquí. En cambio, recorrido el LLM proporcionando ejemplos de la tarea deseada directamente interiormente del mensaje de entrada. El maniquí luego usa estos ejemplos para descubrir cómo manejar una consulta nueva y similar.

Los investigadores se propusieron comparar rigurosamente qué tan adecuadamente se generalizan los modelos con nuevas tareas utilizando estos dos métodos. Construyeron “conjuntos de datos sintéticos controlados del conocimiento fáctico” con estructuras complejas y autoconsistentes, como árboles familiares imaginarios o jerarquías de conceptos ficticios.

Para comprobar de que estaban probando la capacidad del maniquí para formarse nueva información, reemplazaron todos los sustantivos, adjetivos y verbos con términos sin sentido, evitando cualquier superposición con los datos que los LLM podrían favor enfrentado durante la capacitación previa.

Los modelos se probaron luego sobre varios desafíos de divulgación. Por ejemplo, una prueba involucrada Reversiones simples. Si se entrenó a un maniquí para que “FEMP sea más peligroso que Glon”, ¿podría inferir correctamente que “Glon es menos peligroso que FEMP”? Otra prueba centrada en silogismos simplesuna forma de deducción razonamiento. Si se le dice “Todos los Glon son Yomp” y “Todos los Troff son Glon”, ¿podría el maniquí deducir que “todos los Troff son Yomp”? Todavía utilizaron un “punto de remisión de estructura semántica” más difícil con una dependencia más rica de estos hechos inventados para probar una comprensión más matizada.

“Nuestros resultados se centran principalmente en entornos sobre cómo los modelos se generalizan a las deducciones y reversiones del ajuste de nuevas estructuras de conocimiento, con claras implicaciones para situaciones cuando el ajuste fino se usa para adaptar un maniquí a información específica de la compañía y patentado”, dijo Andrew Lampinen, irrefutable de investigación de Google Deepmind y autor principal del documento, dijo VentureBeat.

Para evaluar el rendimiento, los investigadores ajustados a Gemini 1.5 Flash en estos conjuntos de datos. Para ICL, alimentaron todo el conjunto de datos de capacitación (o subconjuntos grandes) como contexto para un maniquí de instrucción ayer de proponer las preguntas de prueba.

Los resultados mostraron constantemente que, en la configuración de los datos, ICL condujo a una mejor divulgación que el ajuste habitual. Los modelos que usan ICL fueron generalmente mejores en tareas como revertir las relaciones o hacer deducciones lógicas desde el contexto proporcionado. Los modelos previamente capacitados, sin ajuste fino o ICL, se desempeñaron mal, lo que indica la novedad de los datos de prueba.

“Una de las principales compensaciones a considerar es que, si adecuadamente ICL no requiere ajuste fino (lo que ahorra los costos de capacitación), generalmente es más costoso computacionalmente con cada uso, ya que requiere proporcionar un contexto adicional al maniquí”, dijo Lampinen. “Por otro banda, ICL tiende a generalizarse mejor para los conjuntos de datos y modelos que evaluamos”.

Un enfoque híbrido: aumentar el ajuste fino

Sobre la colchoneta de la observación de que ICL se destaca en la divulgación flexible, los investigadores propusieron un nuevo método para mejorar el ajuste fino: anexar inferencias en contexto a los datos de ajuste fino. La idea central es utilizar las capacidades ICL de la LLM para difundir ejemplos más diversos y ricamente inferidos, y luego anexar estos ejemplos aumentados al conjunto de datos utilizado para el ajuste fino.

Exploraron dos estrategias principales de aumento de datos:

  1. A táctica específico: Este enfoque se centra en piezas de información individuales. Se solicita al LLM que reformulara oraciones individuales de los datos de capacitación o extraiga inferencias directas, como la procreación de reversiones.
  2. A táctica completo: El LLM recibe el conjunto de datos de capacitación completo como contexto, luego se le solicita a difundir inferencias vinculando un documento o hecho en particular con el resto de la información proporcionada, lo que lleva a un huella de razonamiento más derrochador de inferencias relevantes.

Cuando los modelos fueron ajustados en estos conjuntos de datos aumentados, las ganancias fueron significativas. Este ajuste fino aumentado mejoró significativamente la divulgación, superando no solo el ajuste fino habitual sino igualmente la ICL simple.

Estudios de ajuste fino contra en contexto: nuevas guías de investigación LLM Personalización para tareas del mundo verdadero

“Por ejemplo, si uno de los documentos de la compañía dice ‘XYZ es una útil interna para analizar los datos,’ nuestros resultados sugieren que la ICL y la fina aumentada serán más efectivas para permitir que el maniquí responda preguntas relacionadas como ‘¿Qué herramientas internas para el estudio de datos existen?'”, Dijo Lampinen.

Este enfoque ofrece un camino convincente para las empresas. Al alterar en la creación de estos conjuntos de datos acuáticos de ICL, los desarrolladores pueden construir modelos ajustados que exhiban capacidades de divulgación más fuertes.

Esto puede conducir a aplicaciones LLM más robustas y confiables que funcionan mejor en diversas entradas del mundo verdadero sin incurrir en los costos de tiempo de inferencia continuos asociados con grandes indicaciones en contexto.

“El ajuste fino aumentado generalmente hará que el proceso de ajuste del maniquí sea más costoso, ya que requiere un paso adicional de ICL para aumentar los datos, seguido de ajuste fino”, dijo Lampinen. “Si ese costo adicional merece la divulgación mejorada dependerá del caso de uso específico. Sin secuestro, es computacionalmente más de poco valor que aplicar ICL cada vez que se usa el maniquí, cuando se amortiza sobre muchos usos del maniquí”.

Si adecuadamente Lampinen señaló que se necesita más investigación para ver cómo los componentes que estudiaron interactúan en diferentes entornos, agregó que sus hallazgos indican que los desarrolladores pueden considerar explorar el ajuste fino aumentado en los casos en que ven un rendimiento inadecuado de ajustar solo.

“En última instancia, esperamos que este trabajo contribuya a la ciencia de comprender el formación y la divulgación en los modelos fundamentales, y los aspectos prácticos de adaptarlos a las tareas aguas debajo”, dijo Lampinen.


Related Posts

El postrero de nosotros, el episodio 5 compendio: hay poco en el medio

Nuevos episodios de la temporada 2 de El postrero de nosotros Se estrenan en HBO todos los domingos por la oscuridad, y Kyle Orland de Ars (que ha jugado los…

The MacRumors Show: Posteriormente del iPhone 17: qué esperar en 2026 y más allá

En el episodio de esta semana de The MacRumors Showhablamos sobre cómo se rumorea que la adscripción del iPhone cambia posteriormente del impulso de la adscripción del iPhone 17 a…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

El postrero de nosotros, el episodio 5 compendio: hay poco en el medio

El postrero de nosotros, el episodio 5 compendio: hay poco en el medio

Exsubdirector del IDAC advierte sobre deficiencias en navegación aérea del AILA

Exsubdirector del IDAC advierte sobre deficiencias en navegación aérea del AILA

Presentan decretos en pos del explicación deportivo en Haití | AlMomento.net

Presentan decretos en pos del explicación deportivo en Haití | AlMomento.net

The MacRumors Show: Posteriormente del iPhone 17: qué esperar en 2026 y más allá

The MacRumors Show: Posteriormente del iPhone 17: qué esperar en 2026 y más allá

El café dominicano genera US $ 5.1 millones en interés comercial

El café dominicano genera US $ 5.1 millones en interés comercial

Cuando las huelgas solo afectan los pobres

Cuando las huelgas solo afectan los pobres