Qwenlong-L1 resuelve un desafío de razonamiento de contexto espacioso que Stumps Current LLMS


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Familia de alibaba ha introducido Qwenlong-L1un nuevo situación que permite que los modelos de idiomas grandes (LLM) razonen sobre entradas extremadamente largas. Este mejora podría desbloquear una nueva ola de aplicaciones empresariales que requieren que los modelos comprendan y dibujen ideas de documentos extensos, como presentaciones corporativas detalladas, largos estados financieros o contratos legales complejos.

El desafío del razonamiento de forma larga para la IA

Los avances recientes en grandes modelos de razonamiento (LRM), particularmente a través del enseñanza de refuerzo (RL), han mejorado significativamente sus capacidades de resolución de problemas. La investigación muestra que cuando se entrenan con el ajuste fino de RL, los LRM adquieren habilidades similares al “pensamiento tranquilo” humano, donde desarrollan estrategias sofisticadas para afrontar tareas complejas.

Sin bloqueo, estas mejoras se ven principalmente cuando los modelos funcionan con piezas de texto relativamente cortas, típicamente más o menos de 4,000 tokens. La capacidad de estos modelos para progresar su razonamiento a contextos mucho más largos (por ejemplo, 120,000 tokens) sigue siendo un gran desafío. Tal razonamiento de forma larga requiere una comprensión robusta de todo el contexto y la capacidad de realizar investigación de varios pasos. “Esta distrito plantea una barrera significativa para aplicaciones prácticas que requieren interacción con conocimiento foráneo, como investigaciones profundas, donde los LRM deben compendiar y procesar información de entornos intensivos en conocimiento”, escriben los desarrolladores de Qwenlong-L1 en su papel.

Los investigadores formalizan estos desafíos en el concepto de “razonamiento de contexto espacioso RL”. A diferencia del razonamiento de corto contexto, que a menudo se apoyo en el conocimiento ya almacenado internamente del maniquí, el razonamiento de contexto espacioso RL requiere que los modelos recuperen y funden la información relevante de las largas entradas con precisión. Solo entonces pueden gestar cadenas de razonamiento basadas en esta información incorporada.

Los modelos de capacitación para esto a través de RL es complicado y a menudo resulta en procesos ineficientes de enseñanza y optimización inestable. Los modelos luchan por converger en buenas soluciones o perder su capacidad para explorar diversos caminos de razonamiento.

Qwenlong-L1: un enfoque de varias etapas

Qwenlong-L1 es un situación de enseñanza de refuerzo diseñado para ayudar a LRMS a la transición de la competencia con textos cortos a una divulgación sólida en contextos largos. El situación prosperidad los LRM de contexto corto existente a través de un proceso cuidadosamente estructurado y múltiple:

Calentamiento supervisado de fino (SFT): El maniquí primero sufre una escalón SFT, donde está entrenado en ejemplos de razonamiento de contexto espacioso. Esta etapa establece una colchoneta sólida, lo que permite que el maniquí colchoneta en tierra con precisión de las entradas largas. Ayuda a desarrollar capacidades fundamentales en la comprensión del contexto, gestar cadenas de razonamiento racional y extraer respuestas.

RL por escalón guiada por el plan de estudios: En esta etapa, el maniquí está entrenado a través de múltiples fases, con la distancia objetivo de los documentos de entrada aumentando gradualmente. Este enfoque sistemático y paso a paso ayuda al maniquí a adaptar de forma estable sus estrategias de razonamiento de contextos más cortos a progresivamente más largos. Evita la inestabilidad que a menudo se ve cuando los modelos se entrenan abruptamente en textos muy largos.

Muestreo retrospectivo consciente de la dificultad: La etapa de entrenamiento final incorpora ejemplos desafiantes de las fases de entrenamiento anteriores, asegurando que el maniquí continúe aprendiendo de los problemas más difíciles. Esto prioriza instancias difíciles y alienta al maniquí a explorar caminos de razonamiento más diversos y complejos.

Proceso Qwenlong-L1 (Fuente: ARXIV)
QWENLONG-L1 Fuente del proceso: ARXIV

Más allá de esta capacitación estructurada, Qwenlong-L1 asimismo utiliza un sistema de recompensas diverso. Si correctamente la capacitación para tareas de razonamiento de corto contexto a menudo se apoyo en recompensas estrictas basadas en reglas (por ejemplo, una respuesta correcta en un problema de matemáticas), Qwenlong-L1 emplea un mecanismo de premio híbrida. Esto combina la comprobación basada en reglas, que garantiza la precisión al repasar la estricta enlace a los criterios de corrección, con un “LLM-as-a-Judge. ” Este maniquí de togado compara la semántica de la respuesta generada con la verdad del suelo, lo que permite una viejo flexibilidad y un mejor manejo de las diversas formas en que se pueden expresar las respuestas correctas cuando se proxenetismo de documentos largos y matizados.

Poner a prueba Qwenlong-L1

El equipo de Alibaba evaluó Qwenlong-L1 utilizando el documento de respuesta a la pregunta (DOCQA) como la tarea principal. Este tablado es muy relevante para las deyección empresariales, donde la IA debe comprender los documentos densos para objetar preguntas complejas.

Los resultados experimentales en siete puntos de remisión DOCQA de contexto espacioso mostraron las capacidades de Qwenlong-L1. En particular, el maniquí Qwenlong-L1-32B (basado en Deepseek-R1-Distill-Qwen-32b) alcanzó el rendimiento comparable al pensamiento del soneto Claude-3.7 de Anthrope, y modelos superiores a los modelos superiores a Openi’s O3-Mini y QWEN3-235B-A22B. El maniquí Qwenlong-L1-14b más pequeño asimismo superó a Gemini 2.0 Flash Thinking de Google y QWEN3-32B.

Fuente: Arxiv
Fuente: Arxiv

Un hallazgo importante relevante para las aplicaciones del mundo verdadero es cómo los resultados de la capacitación RL en el maniquí que desarrolla comportamientos especializados de razonamiento de larga duración. El documento señala que los modelos entrenados con Qwenlong-L1 mejoran en la “conexión a tierra” (vinculando las respuestas a partes específicas de un documento), “configuración de subggoal” (descomponiendo preguntas complejas), “retroceder” (cachear y corregir sus propios errores a centro de carrera) y “comprobación” (doble comprobación de sus respuestas).

Por ejemplo, si correctamente un maniquí colchoneta podría ser desviado por detalles irrelevantes en un documento financiero o encasquillarse en un onda de información no relacionada excesiva, el maniquí entrenado Qwenlong-L1 demostró una capacidad de participar en una autorreflexión efectiva. Podría filtrar con éxito estos detalles del distractor, retroceder desde rutas incorrectas y ganar a la respuesta correcta.

Técnicas como Qwenlong-L1 podrían expandir significativamente la utilidad de la IA en la empresa. Las aplicaciones potenciales incluyen tecnología justo (analizar miles de páginas de documentos legales), finanzas (investigaciones profundas sobre informes anuales y presentaciones financieras para evaluación de riesgos o oportunidades de inversión) y servicio al cliente (analizar largos historiales de interacción con los clientes para proporcionar un apoyo más informado). Los investigadores han publicado el Código para la fórmula Qwenlong-L1 y el Pesos para los modelos entrenados.


Related Posts

¿Cuándo salen los nuevos relojes Apple? Aquí está lo postrer

Las cosas han estado calladas en el Apple Watch Frente finalmente. Demasiado tranquilo. De hecho, las ventas han bajado por segundo año consecutivo, y el postrer trimestre, Xiaomi superó a…

El común Charca Arrow de Intel parece tener una aggiornamento entrante: Arrow Lake Refresh aparece en el documento de relato

Si creemos un manual filtrado para una próxima placa almohadilla Intel W880, el procesador Intel Arrow Lake-S aparentemente tendrá un sucesor de aggiornamento. Fugador de hardware popular roto_US Compartió una…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

¿Cuándo salen los nuevos relojes Apple? Aquí está lo postrer

¿Cuándo salen los nuevos relojes Apple? Aquí está lo postrer

Caribbean Sports Center elogios Avances Santo Sunday 2026 | Almomento.net

Caribbean Sports Center elogios Avances Santo Sunday 2026 | Almomento.net

El común Charca Arrow de Intel parece tener una aggiornamento entrante: Arrow Lake Refresh aparece en el documento de relato

El común Charca Arrow de Intel parece tener una aggiornamento entrante: Arrow Lake Refresh aparece en el documento de relato

José del Castillo advierte que RD podría perder US$1,000 millones si EE. UU. impone impuesto a las remesas

José del Castillo advierte que RD podría perder US,000 millones si EE. UU. impone impuesto a las remesas

Los piratas informáticos están secuestrando subdominios olvidados para difundir malware a través de sitios de confianza; Este truco pasado por suspensión podría golpearte a continuación

Los piratas informáticos están secuestrando subdominios olvidados para difundir malware a través de sitios de confianza; Este truco pasado por suspensión podría golpearte a continuación

Trump no descarta indultar a Diddy – Remolacha

Trump no descarta indultar a Diddy – Remolacha