
El equipo Qwen de investigadores de IA del hércules chino del comercio electrónico Alibaba se ha convertido en el postrero año en uno de los líderes mundiales en el progreso de IA de código destapado, lanzando una serie de potentes modelos de lengua de gran tamaño y modelos multimodales especializados que se aproximan, y en algunos casos superan, el desempeño de los líderes propietarios de EE. UU., como OpenAI, Anthropic, Google y xAI.
Ahora el equipo Qwen regresa esta semana con un tiro convincente que coincide con el "codificación de vibraciones" frenesí que ha surgido en los últimos meses: Qwen3-Coder-Sucesivoun maniquí especializado de 80 mil millones de parámetros diseñado para ofrecer un rendimiento agente de élite internamente de un espacio activo desvergonzado.
Se lanzó con una inmoralidad Apache 2.0 permisiva, lo que permite el uso comercial tanto de grandes empresas como de desarrolladores independientes, con la pesos de maniquí disponibles en Hugging Face en cuatro variantes y una documentación técnico describiendo algunos de sus enfoques de formación e innovaciones.
El tiro marca una subida importante en la carrera armamentista entero por el asistente de codificación definitivo, luego de una semana en la que el espacio explotó con nuevos participantes. Desde las enormes ganancias de eficiencia del arnés Claude Code de Anthropic hasta el tiro de parada perfil de la aplicación OpenAI Codex y la rápida asimilación comunitaria de marcos de código destapado como OpenClaw, el panorama competitivo nunca ha estado más concurrido.
En este entorno de parada peligro, Alibaba no sólo está manteniendo el ritmo: está intentando establecer un nuevo standard para la inteligencia de peso destapado.
Para los tomadores de decisiones de LLM, Qwen3-Coder-Next representa un cambio fundamental en la pertenencias de la ingeniería de IA. Si correctamente el maniquí alberga 80 mil millones de parámetros totales, utiliza una edificio de Mezcla de Expertos (MoE) ultraescasa que activa solo 3 mil millones de parámetros por paso directo.
Este diseño le permite ofrecer capacidades de razonamiento que rivalizan con los sistemas propietarios masivos, manteniendo al mismo tiempo los bajos costos de implementación y el parada rendimiento de un maniquí recinto desvergonzado.
Resolver el cuello de botella del contexto prolongado
El principal avance técnico detrás de Qwen3-Coder-Next es una edificio híbrida diseñada específicamente para evitar los problemas de escalera cuadrática que afectan a los Transformers tradicionales.
A medida que las ventanas de contexto se expanden (y este maniquí admite la enorme cantidad de 262.144 tokens), los mecanismos de atención tradicionales se vuelven computacionalmente prohibitivos.
Los transformadores standard sufren de un "tapia de la memoria" donde el costo de procesar el contexto crece cuadráticamente con la distancia de la secuencia. Qwen aborda esto combinando Gated DeltaNet con Gated Attention.
Gated DeltaNet actúa como una alternativa de complejidad recto a la atención softmax standard. Permite que el maniquí mantenga el estado en su ventana de un cuarto de millón de tokens sin las penalizaciones de latencia exponencial típicas del razonamiento a liberal plazo.
Cuando se combina con el MoE ultraescaso, el resultado es un rendimiento teórico 10 veces veterano para tareas a nivel de repositorio en comparación con modelos densos de capacidad total similar.
Esta edificio garantiza que un agente pueda "adivinar" una biblioteca Python completa o un ámbito confuso de JavaScript y contestar con la velocidad de un maniquí 3B, pero con la comprensión estructural de un sistema 80B.
Para evitar alucinaciones de contexto durante el entrenamiento, el equipo utilizó Best-Fit Packing (BFP), una logística que mantiene la eficiencia sin los errores de truncamiento que se encuentran en la concatenación tradicional de documentos.
Capacitado para ser el agente primero
El "Próximo" en la nomenclatura del maniquí se refiere a un pivote fundamental en la metodología de entrenamiento. Históricamente, los modelos de codificación se entrenaban en pares de código-texto estáticos, esencialmente un "solo recitación" educación. En cambio, Qwen3-Coder-Next se desarrolló a través de una masiva "entrenamiento agente" tubería.
El documentación técnico detalla un proceso de síntesis que produjo 800.000 tareas de codificación verificables. Estos no fueron meros fragmentos; eran escenarios de corrección de errores del mundo efectivo extraídos de solicitudes de ascendencia de GitHub y combinados con entornos totalmente ejecutables.
La infraestructura de formación, conocida como MegaFlow, es un sistema de orquestación nativo de la nubarrón basado en Alibaba Cloud Kubernetes. En MegaFlow, cada tarea de agente se expresa como un flujo de trabajo de tres etapas: implementación del agente, evaluación y posprocesamiento. Durante la implementación, el maniquí interactúa con un entorno contenedorizado en vivo.
Si genera código que falta una prueba unitaria o falta un contenedor, recibe feedback inmediata a través del entrenamiento intermedio y el estudios de refuerzo. Este "circuito cerrado" La educación permite que el maniquí aprenda de la feedback del entorno, enseñándole a recuperarse de fallas y perfeccionar soluciones en tiempo efectivo.
Las especificaciones del producto incluyen:
-
Soporte para 370 lenguajes de programación: Una expansión de 92 en versiones anteriores.
-
Llamamiento de herramientas de estilo XML: Un nuevo formato qwen3_coder diseñado para argumentos con muchas cadenas, lo que permite que el maniquí emita fragmentos de código largos sin las comillas anidadas y la sobrecarga de escape típica de JSON.
-
Enfoque a nivel de repositorio: La capacitación intermedia se amplió a aproximadamente 600 mil millones de tokens de datos a nivel de repositorio, lo que resultó más impactante para la deducción de dependencia entre archivos que los conjuntos de datos a nivel de archivo solos.
Especialización a través de modelos expertos
Un diferenciador esencia en el proceso Qwen3-Coder-Next es el uso de modelos expertos especializados. En circunstancia de entrenar un maniquí generalista para todas las tareas, el equipo desarrolló expertos en dominios específicos para el progreso web y la experiencia del beneficiario (UX).
El versado en progreso web se centra en tareas completas, como la construcción de la interfaz de beneficiario y la composición de componentes. Todos los ejemplos de código se renderizaron en un entorno Chromium controlado por Playwright.
Para las muestras de React, se implementó un servidor Vite para asegurar que todas las dependencias se inicializaran correctamente. Luego, un maniquí de visión-lenguaje (VLM) juzgó la integridad del diseño y la calidad de la interfaz de beneficiario de las páginas renderizadas.
User Experience Expert se optimizó para cumplir con el formato de citación de herramientas en diversos andamios CLI/IDE, como Cline y OpenCode. El equipo descubrió que la capacitación en diversas plantillas de chat de herramientas mejoró significativamente la solidez del maniquí frente a esquemas invisibles en el momento de la implementación.
Una vez que estos expertos alcanzaron el mayor rendimiento, sus capacidades se refinaron nuevamente en el maniquí único MoE 80B/3B. Esto garantiza que la interpretación de implementación ligera conserve el conocimiento matizado de modelos docentes mucho más grandes.
Superando los puntos de remisión y ofreciendo ingreso seguridad
Los resultados de esta formación especializada son evidentes en la posición competitiva del maniquí frente a los gigantes de la industria. En evaluaciones comparativas realizadas utilizando la plataforma SWE-Agent, Qwen3-Coder-Next demostró una eficiencia estupendo en relación con su recuento de parámetros activos.
En SWE-Bench Verified, el maniquí logró una puntuación del 70,6%. Este rendimiento es notablemente competitivo cuando se compara con modelos significativamente más grandes; supera a DeepSeek-V3.2, que obtiene una puntuación del 70,2 %, y está sólo sutilmente por detrás de la puntuación del 74,2 % de GLM-4.7.
Fundamentalmente, el maniquí demuestra una sólida conciencia de seguridad inherente. En SecCodeBench, que evalúa la capacidad de un maniquí para reparar vulnerabilidades, Qwen3-Coder-Next superó a Claude-Opus-4.5 en escenarios de coexistentes de código (61,2% frente a 52,5%).
En particular, mantuvo puntuaciones altas incluso cuando no se le proporcionaron sugerencias de seguridad, lo que indica que ha aprendido a anticipar los errores de seguridad comunes durante su período de capacitación agente de 800.000 tareas.
En evaluaciones de seguridad multilingüe multilingüe, el maniquí todavía demostró un nivelación competitivo entre la coexistentes de código utilitario y seguro, superando a DeepSeek-V3.2 y GLM-4.7 en el punto de remisión CWEval con una puntuación func-sec@1 del 56,32 %.
Desafiando a los gigantes propietarios
El tiro representa el desafío más importante para el dominio de los modelos de codificación de código cerrado en 2026. Al demostrar que un maniquí con solo 3 mil millones de parámetros activos puede navegar por las complejidades de la ingeniería de software del mundo efectivo con tanta competencia como un "hércules," Alibaba ha democratizado efectivamente la codificación agente.
El "¡ajá!" El momento más importante para la industria es darse cuenta de que la duración del contexto y el rendimiento son las dos palancas más importantes para el éxito de la agencia.
Un maniquí que puede procesar 262.000 tokens de un repositorio en segundos y repasar su propio trabajo en un contenedor Docker es fundamentalmente más útil que un maniquí más amplio que es demasiado cachazudo o costoso de iterar.
Como concluye el equipo de Qwen en su documentación: "Ampliar la capacitación de agentes, en circunstancia del tamaño del maniquí nada más, es un factótum esencia para avanzar en la capacidad de los agentes de codificación en el mundo efectivo.". Con Qwen3-Coder-Next, la era del "mamut" El maniquí de codificación puede estar llegando a su fin, reemplazado por expertos ultrarrápidos y escasos que pueden pensar tan profundamente como pueden valer.





