El nuevo situación ‘recursivo’ del MIT permite a los LLM procesar 10 millones de tokens sin ofensa del contexto

El nuevo situación ‘recursivo’ del MIT permite a los LLM procesar 10 millones de tokens sin ofensa del contexto

Modelos de habla recursivo (RLM) son una técnica de inferencia desarrollada por investigadores del MIT CSAIL que tráfico las indicaciones largas como un entorno extranjero al maniquí. En puesto de forzar todo el mensaje en la ventana de contexto del maniquí, el situación permite que el LLM examine, descomponga y se llame recursivamente a sí mismo mediante programación sobre fragmentos del texto.

En puesto de ampliar las ventanas de contexto o resumir información antigua, el equipo del MIT replantea el razonamiento de contexto dispendioso como un problema de sistemas. Al permitir que los modelos traten las indicaciones como poco que pueden inspeccionar con código, los modelos de habla recursivo permiten a los LLM razonar sobre millones de tokens sin falta de retornar a capacitarse. Esto ofrece a las empresas un camino práctico en torno a tareas de dispendioso plazo, como estudio de código colchoneta, revisión judicial y razonamiento de varios pasos que rutinariamente rompen los modelos actuales.

Adecuado a que el situación está diseñado como un contenedor para los modelos existentes, puede servir como un reemplazo directo para aplicaciones que realizan llamadas directas a LLM.

El problema del contexto LLM

Si aceptablemente los modelos de frontera se están volviendo cada vez más sofisticados en el razonamiento, su capacidad para procesar cantidades masivas de información no aumenta al mismo ritmo. Este cuello de botella se debe a dos limitaciones distintas: la estricta restricción física sobre la cantidad de texto que un maniquí puede procesar a la vez (largo del contexto) y "podredumbre del contexto."

El desafío, argumentan los investigadores, es si es posible subir el tamaño del contexto efectivo de los LLM de propósito caudillo en órdenes de magnitud sin retornar a capacitarlos. Esta capacidad se está volviendo cada vez más importante para las aplicaciones empresariales, donde los LLM se adoptan para tareas de dispendioso plazo que requieren el procesamiento de millones de tokens, un desafío que, según Zhang, no se puede resolver simplemente expandiendo las ventanas de contexto.

"Existe un argumento de entropía que implica que necesita exponencialmente más muestras de datos a medida que aumenta el tamaño efectivo de la ventana de contexto." Alex Zhang, coautor del artículo, dijo a VentureBeat.

Los enfoques actuales para ampliar el contexto a menudo se basan en la compactación, donde el maniquí resume partes más antiguas de la conversación para liberar espacio. Sin incautación, este método rotura en tareas que requieren entrada accidental a detalles específicos ubicados en partes anteriores del mensaje.

Cómo funcionan los RLM

El concepto detrás de los RLM se extrae de "fuera del núcleo" Algoritmos utilizados en la computación clásica. Estos algoritmos están diseñados para procesar conjuntos de datos demasiado grandes para coger en la memoria principal de una computadora manteniendo los datos en un disco duro y recuperando solo los fragmentos necesarios según sea necesario.

Los RLM aplican esta deducción a la IA generativa. En puesto de despachar un mensaje dispendioso directamente a la red neuronal, el situación carga el texto como una variable de condena en el interior de un entorno de codificación Python. El LLM recibe un contexto caudillo sobre los datos (como el recuento total de caracteres) pero no "ver" el texto inicialmente.

Una vez que el mensaje se almacena como una variable, el LLM actúa como programador. Escribe código Python para interactuar con la variable externa, utilizando comandos unificado para echar un vistazo a los datos. Por ejemplo, el maniquí podría usar expresiones regulares para despabilarse palabras esencia específicas como "Capítulo 1" o "resultados financieros."

Cuando la ejecución del código encuentra un fragmento relevante, el RLM extrae solo ese fragmento específico en su ventana de contexto activa para su estudio.

Por ejemplo, si el mensaje es un manual enorme, el LLM podría escribir un onda que identifique los límites de los capítulos y luego active una subllamada para resumir cada capítulo individualmente.

La obra suele implicar dos agentes. A "maniquí de habla raíz," A menudo, un maniquí de gran capacidad como GPT-5 actúa como orquestador. Planifica el enfoque, escribe el código y gestiona el flujo de datos en el interior del entorno REPL. A "maniquí de habla recursivo," a menudo un maniquí más rápido y más de ocasión, actúa como el trabajador. El LM raíz claridad a este trabajador para procesar los fragmentos de texto específicos aislados por el código.

Adecuado a que el mensaje reside en la memoria del entorno en puesto de en la ventana de contexto del maniquí, el sistema puede manejar entradas mucho mayores que el periferia de entrenamiento del maniquí. Es importante destacar que, para el afortunado final, el RLM se comporta exactamente como un maniquí unificado: acepta una condena y devuelve una respuesta. Esto permite a los equipos empresariales canjear llamadas API unificado por RLM.

Para los desarrolladores que quieran padecer, el código RLM está actualmente habitable en GitHub.

"Un argumento esencia a ayuda de los RLM es que las tareas más complejas se pueden descomponer en subtareas más pequeñas y “locales”." Dijo Zhang. "Sin incautación, cómo realizar esta descomposición contexto/problema no es trivial y el maniquí debe ser capaz de realizarlo."

RLM en energía

Para validar el situación, los investigadores probaron los RLM con modelos colchoneta y otros enfoques agentes como CodeAct y agentes de epítome en una variedad de tareas de contexto dispendioso, incluida la recuperación y la respuesta a preguntas de múltiples saltos.

Los resultados demostraron fuertes ganancias de rendimiento en la escalera de más de 10 millones de tokens. En NavegarComp-Plusun punto de remisión que involucra entradas de 6 a 11 millones de tokens, los modelos colchoneta unificado fallaron por completo, con una puntuación del 0%. Por el contrario, el RLM impulsado por GPT-5 logró una puntuación de 91,33%, superando significativamente al Agente de Recapitulación (70,47%) y CódigoAct (51%).

El situación además destacó en tareas con inscripción complejidad computacional. En OOLONG-Pairs, un punto de remisión de razonamiento denso en información donde la dificultad aumenta cuadráticamente con la largo de entrada, los modelos básicos GPT-5 fallaron catastróficamente con una puntuación de solo 0,04%. El RLM logró una puntuación F1 (una medida equilibrada de precisión y recuperación) del 58 %, lo que demuestra capacidades emergentes para manejar tareas densas que paralizan los modelos unificado. De guisa similar, en tareas de comprensión de código (comparación CodeQA), el RLM duplicó con creces el rendimiento del maniquí colchoneta GPT-5, pasando del 24% al 62%.

Con respecto al problema de la descomposición del contexto, los datos mostraron que, si aceptablemente el rendimiento colchoneta de GPT-5 se degrada rápidamente a medida que aumenta la complejidad de la tarea, el rendimiento de RLM se mantiene estable, superando consistentemente al maniquí colchoneta en contextos de más de 16.000 tokens.

A pesar de la longevo complejidad del flujo de trabajo, los RLM a menudo mantenían costos promedio comparables o más bajos que los de remisión. En el punto de remisión BrowseComp-Plus, el RLM fue hasta tres veces más de ocasión que la orientación colchoneta de epítome.

Sin incautación, los investigadores observaron que si aceptablemente los costos medios son bajos, las trayectorias RLM son "de pan dulce larga." Las ejecuciones de títulos atípicos pueden resultar costosas si el maniquí se atasca en bucles o realiza verificaciones redundantes. Si aceptablemente GPT-5 fue conservador en sus subllamadas, el código despejado Codificador Qwen3 El maniquí a veces intentaba miles de subllamadas para tareas simples.

"Hoy en día, es probable que tengas que implementar tus propias barreras de seguridad y deducción para controlar el comportamiento de RLM." Dijo Zhang. Sin incautación, plantea la hipótesis de que se podrían entrenar modelos futuros para mandar sus propios presupuestos informáticos de forma más eficaz. Empresas como Prime Intellect están planeando integrar RLM en el proceso de entrenamiento de modelos, posiblemente abordando los casos extremos donde el presupuesto de inferencia del maniquí aumenta.

Para los arquitectos empresariales que deciden dónde hacer sus apuestas, el situación RLM ofrece una nueva aparejo para manejar problemas con gran densidad de información.

"Creo que los RLM siguen siendo extremadamente bártulos para los chatbots (piense en historiales de chat largos), pero en última instancia abogan por una forma alternativa de utilizar los LM." Dijo Zhang. "Creo que los RLM funcionan en conjunto con métodos de recuperación unificado como RAG; no sirven como reemplazo y pueden estilarse en diferentes entornos o juntos."

Related Posts

Apple planea ‘nuevos colores’ para la puesta al día de iMac este año

Desde que presentó el diseño presente de iMac en 2021, Apple ha actualizado el chip interno dos veces y ha actualizado los colores solo una vez. Parece que eso cambiará…

El automóvil impulsado por 500 baterías de vapeo desechables cuenta con un zona de influencia de 18 millas, una velocidad máxima de 35 mph y un puerto de carga USB-C: Reva G.Wiz de principios de la división de 2000 se renueva

Un TechTuber que anteriormente apareció en los titulares posteriormente de hacer un powerwall doméstico a partir de una mezcla de componentes de vapeo desechados ha compartido detalles de su automóvil…

You Missed

Apple planea ‘nuevos colores’ para la puesta al día de iMac este año

Apple planea ‘nuevos colores’ para la puesta al día de iMac este año

Enseñar sin pruebas: el tóxico que contamina el debate sabido

Enseñar sin pruebas: el tóxico que contamina el debate sabido

RD propina nocaut a Países Bajos con jonrones de Soto, Caminero, Liante y Wells

RD propina nocaut a Países Bajos con jonrones de Soto, Caminero, Liante y Wells

Según el indicio cardiovascular, se indica el tipo de estudio a realizar

Según el indicio cardiovascular, se indica el tipo de estudio a realizar

Pugna en Irán dispara precios de carburantes

Pugna en Irán dispara precios de carburantes

El automóvil impulsado por 500 baterías de vapeo desechables cuenta con un zona de influencia de 18 millas, una velocidad máxima de 35 mph y un puerto de carga USB-C: Reva G.Wiz de principios de la división de 2000 se renueva

El automóvil impulsado por 500 baterías de vapeo desechables cuenta con un zona de influencia de 18 millas, una velocidad máxima de 35 mph y un puerto de carga USB-C: Reva G.Wiz de principios de la división de 2000 se renueva