La nueva técnica de ‘Pensamiento Markoviano’ abre un camino cerca de el razonamiento de IA de un millón de tokens

La nueva técnica de ‘Pensamiento Markoviano’ abre un camino cerca de el razonamiento de IA de un millón de tokens

Los investigadores de Mila han propuesto una nueva técnica que hace que los modelos de jerga grandes (LLM) sean mucho más eficientes al realizar razonamientos complejos. Llamado Pensamiento markovianoel enfoque permite a los LLM participar en un razonamiento prolongado sin incurrir en los costos computacionales prohibitivos que actualmente limitan tales tareas.

La implementación del equipo, un entorno llamado Delethink, estructura la cautiverio de razonamiento en fragmentos de tamaño fijo, rompiendo el problema de escalera que afecta a las respuestas LLM muy largas. Las estimaciones iniciales muestran que para un maniquí de 1,5 mil millones de parámetros, este método puede estrechar los costos de capacitación en más de dos tercios en comparación con los enfoques tipificado.

La maldición cuadrática del razonamiento de cautiverio larga

Para que un LLM resuelva un problema enredado, a menudo necesita ocasionar una larga serie de tokens de “pensamiento” intermedios, a menudo denominados cautiverio de pensamiento (CoT). En los últimos abriles, los investigadores han descubierto que el uso enseñanza por refuerzo (RL) para entrenar modelos para producir CoT más largos (a veces denominados LongCoT) ha mejorado significativamente sus capacidades de razonamiento.

Sin confiscación, el método tipificado para esto tiene un defecto crítico: la IA "estado" (la indicación más todos los tokens de razonamiento que ha generado hasta el momento en su procesamiento) crece con cada nuevo token de razonamiento. Para flamante modelos basados ​​en transformadoresesto significa que el costo computacional se dispara cuadráticamente a medida que la cautiverio de razonamiento se hace más larga, lo que hace prohibitivamente costoso entrenar modelos para tareas muy complejas.

La mayoría de los intentos actuales de ejecutar este costo se centran en condicionar la cantidad de pensamiento que realiza el maniquí, prefiriendo implícitamente soluciones más cortas o terminando el proceso antiguamente de tiempo. Si aceptablemente estos métodos ofrecen cierto alivio, los investigadores de Mila todavía operan interiormente del ámbito LongCoT y, por lo tanto, están fundamentalmente sujetos a su naturaleza cuadrática.

En sitio de intentar controlar el crecimiento computacional, Mila creó un entorno RL que evita por completo el problema cuadrático. Como explicó el coautor Amirhossein Kazemnejad, el objetivo es habilitar capacidades como el razonamiento de varias semanas y el descubrimiento comprobado. "Ese régimen (y el RL necesario para habilitar tales capacidades) no es compatible con el pauta LongCoT flagrante, adecuado al costo de cálculo cuadrático," dijo.

Pensando en trozos con Delethink

La posibilidad de los investigadores es un pauta que llaman el "pensador markoviano," donde el maniquí razona manteniendo constante el tamaño de su ventana de contexto de razonamiento. La idea central es cambiar la configuración de RL para separar "cuanto tiempo piensa el maniquí" de "cuánto contexto debe procesar." Si se hace correctamente, un pensador markoviano convierte el problema de crecimiento cuadrático en cálculo derecho y requisitos de memoria fijos para el razonamiento LLM.

Los investigadores ponen en maña este pauta a través de Delethink, que obliga al maniquí a razonar en una secuencia de fragmentos de tamaño fijo, como 8.000 tokens a la vez. Adentro de cada fragmento, el maniquí razona como lo haría normalmente, utilizando el clásico mecanismo de atención. Pero cuando alcanza el linde del fragmento, el entorno restablece el contexto, creando un nuevo mensaje que incluye la consulta flamante más un breve "Continuar" del trozo aludido. Por ejemplo, el remanente podría ser los últimos tokens del fragmento aludido de CoT o un recopilación de los resultados más importantes.

Esta reorganización del problema obliga al maniquí a ilustrarse cómo incorporar un recopilación de su progreso, o un "estado textual markoviano," en este remanente para continuar su razonamiento en el próximo fragmento. Esto aborda la preocupación global de si el maniquí puede memorar detalles importantes de pasos anteriores.

Según Kazemnejad, la maniquí aprende qué memorar. "Con entrenamiento… el maniquí se ve obligado a ilustrarse a tolerar delante el estado de tarea crítica," explicó. Agregó una explicación crucial para el uso práctico: el mensaje de entrada flamante no se modifica, incluidos los documentos o datos contextuales que se le agregan. “Nuestro enfoque está dirigido a la período de razonamiento y no modifica la indicación," dijo.

Delethink en hecho

Para probar su enfoque, los investigadores entrenaron R1-Distill-1.5B con Delethink en un conjunto de datos de problemas matemáticos a nivel de competencia y luego lo evaluaron con respecto a varios puntos de remisión. El maniquí fue entrenado para razonar hasta 24.000 tokens pero con fragmentos fijos de 8.000 tokens.

los investigadores comparó esto con modelos entrenados con el método tipificado LongCoT-RL. Sus hallazgos indican que el maniquí entrenado con Delethink podría razonar hasta 24.000 tokens e igualó o superó un maniquí LongCoT entrenado con el mismo presupuesto de 24.000 tokens en puntos de remisión matemáticos. En otras tareas como codificación y preguntas de nivel de doctorado, Delethink incluso igualó o superó tenuemente a su contraparte LongCoT. “En militar, estos resultados indican que Delethink utiliza sus tokens de pensamiento con tanta validez como LongCoT-RL con cuenta limitado”, escriben los investigadores.

Los beneficios se vuelven aún más pronunciados cuando se amplía más allá del presupuesto de capacitación. Si aceptablemente los modelos entrenados con LongCoT se estabilizaron rápidamente en sus límites de entrenamiento, el maniquí entrenado con Delethink continuó mejorando su rendimiento. Por ejemplo, algunos problemas matemáticos solo se resolvieron posteriormente de que el maniquí razonara hasta 140.000 tokens, mucho más que su presupuesto de capacitación de 24.000 tokens. Esta superioridad de computación derecho es sustancial para las aplicaciones empresariales. Los investigadores estiman que entrenar un maniquí con una duración de pensamiento promedio de 96.000 tokens requeriría 27 meses de GPU H100 con LongCoT, frente a solo 7 con Delethink.

Esta eficiencia se extiende directamente a la inferencia, el principal costo operante para la mayoría de las empresas. "Los modelos entrenados en pensamiento markoviano utilizan el mismo estilo de inferencia (delethink-tracing) durante el tiempo de prueba, lo que proporciona las mismas ventajas de la computación derecho y la memoria constante posteriormente del entrenamiento." dijo Kazemnejad. Ofreció un ejemplo práctico: un agente de IA podría "depurar una saco de código sobresaliente y pensar durante mucho tiempo… lo que, por supuesto, reduce significativamente el costo en comparación con el enfoque LongCoT convencional."

Curiosamente, los investigadores descubrieron que los modelos de razonamiento disponibles en el mercado, incluso sin ningún entrenamiento específico, ya exhiben cierta capacidad para pensar en forma markoviana. Este hallazgo tiene implicaciones prácticas inmediatas para los desarrolladores. "En la maña, esto significa que, sin Delethink-RL, estos modelos ya pueden ejecutar un contenedor de seguimiento de delethink y funcionar de guisa competitiva con LongCoT en nuestras tareas comparadas." dijo Kazemnejad.

Sus experimentos con modelos más grandes como GPT-OSS 120B mostró un rendimiento sólido con Delethink en una variedad de tareas complejas. Esta capacidad implícito proporciona un sólido punto de partida para el entrenamiento de RL, lo que ayuda a explicar por qué el método es tan eficaz. “En conjunto, estos resultados sugieren que Delethink es compatible y escalera con modelos de última concepción”, concluyen los investigadores.

El éxito del pensamiento markoviano muestra que puede ser posible "modelos de razonamiento de próxima concepción para pensar en millones de tokens," señalan los investigadores. Esto abre la puerta a capacidades de IA fundamentalmente nuevas, que van más allá de las limitaciones actuales.

"El pensamiento markoviano… abre el camino a modelos que pueden “pensar” para horizontes muy largos, lo que consideramos un paso necesario cerca de un eventual descubrimiento comprobado." dijo Kazemnejad. "Nuestro enfoque elimina un cuello de botella esencia y puede permitir la capacitación para tareas con horizontes mucho más largos, lo que habilita capacidades de próxima concepción."

Related Posts

Apple planea ‘nuevos colores’ para la puesta al día de iMac este año

Desde que presentó el diseño presente de iMac en 2021, Apple ha actualizado el chip interno dos veces y ha actualizado los colores solo una vez. Parece que eso cambiará…

El automóvil impulsado por 500 baterías de vapeo desechables cuenta con un zona de influencia de 18 millas, una velocidad máxima de 35 mph y un puerto de carga USB-C: Reva G.Wiz de principios de la división de 2000 se renueva

Un TechTuber que anteriormente apareció en los titulares posteriormente de hacer un powerwall doméstico a partir de una mezcla de componentes de vapeo desechados ha compartido detalles de su automóvil…

You Missed

Apple planea ‘nuevos colores’ para la puesta al día de iMac este año

Apple planea ‘nuevos colores’ para la puesta al día de iMac este año

Enseñar sin pruebas: el tóxico que contamina el debate sabido

Enseñar sin pruebas: el tóxico que contamina el debate sabido

RD propina nocaut a Países Bajos con jonrones de Soto, Caminero, Liante y Wells

RD propina nocaut a Países Bajos con jonrones de Soto, Caminero, Liante y Wells

Según el indicio cardiovascular, se indica el tipo de estudio a realizar

Según el indicio cardiovascular, se indica el tipo de estudio a realizar

Pugna en Irán dispara precios de carburantes

Pugna en Irán dispara precios de carburantes

El automóvil impulsado por 500 baterías de vapeo desechables cuenta con un zona de influencia de 18 millas, una velocidad máxima de 35 mph y un puerto de carga USB-C: Reva G.Wiz de principios de la división de 2000 se renueva

El automóvil impulsado por 500 baterías de vapeo desechables cuenta con un zona de influencia de 18 millas, una velocidad máxima de 35 mph y un puerto de carga USB-C: Reva G.Wiz de principios de la división de 2000 se renueva