El Qwen 3.5 397B-A17 de Alibaba supera a su maniquí más ancho de un billón de parámetros, a una fracción del costo

El Qwen 3.5 397B-A17 de Alibaba supera a su maniquí más ancho de un billón de parámetros, a una fracción del costo

Alibaba abandonó Qwen3.5 a principios de esta semana, programado para coincidir con el Año Nuevo Tacha, y las cifras de los titulares por sí solas son suficientes para hacer que los compradores empresariales de IA se detengan y presten atención.

El nuevo maniquí insignia de peso extenso, Qwen3.5-397B-A17B, incluye 397 mil millones de parámetros totales pero activa solo 17 mil millones por token. Afirma ocurrir rebaño en puntos de narración frente al precedente buque insignia de Alibaba, Qwen3-Max, un maniquí que la propia compañía ha obligado que superó el billón de parámetros.

El divulgación marca un momento significativo en la adquisición de IA empresarial. Para los líderes de TI que evalúan la infraestructura de IA para 2026, Qwen 3.5 presenta un tipo diferente de argumento: que el maniquí que verdaderamente puedes ejecutar, poseer y controlar ahora puede trocar golpes con los modelos que tienes que arrendar.

Una nueva obra construida para la velocidad a escalera

La historia de la ingeniería detrás de Qwen3.5 comienza con su ascendencia. El maniquí es un sucesor directo del Qwen3-Next práctico de septiembre pasado, un maniquí MoE ultraescaso que fue gastado previamente pero ampliamente considerado como medio entrenado. Qwen3.5 toma esa dirección arquitectónica y la escalera agresivamente, pasando de 128 expertos en los modelos Qwen3 MoE anteriores a 512 expertos en la nueva traducción.

La implicación ejercicio de esto y de un mejor mecanismo de atención es una latencia de inferencia dramáticamente pequeño. Conveniente a que solo 17 mil millones de esos 397 mil millones de parámetros están activos para cualquier paso en torno a delante determinado, la huella de enumeración está mucho más cerca de un maniquí denso de 17 mil millones que de uno de 400 mil millones, mientras que el maniquí puede servirse toda la profundidad de su asociación de expertos para un razonamiento especializado.

Estas ganancias de velocidad son sustanciales. Con longitudes de contexto de 256K, Qwen 3.5 decodifica 19 veces más rápido que Qwen3-Max y 7,2 veces más rápido que el maniquí 235B-A22B de Qwen 3.

Alibaba todavía afirma que el maniquí es un 60% más de ocasión de ejecutar que su predecesor y ocho veces más capaz de manejar grandes cargas de trabajo simultáneas, cifras que son de enorme importancia para cualquier equipo que preste atención a las facturas de inferencia. Asimismo es rodeando de 1/18 del coste del Gemini 3 Pro de Google.

Otras dos decisiones arquitectónicas agravan estos beneficios:

  1. Qwen3.5 adopta predicción multitoken (un enfoque pionero en varios modelos patentados) que acelera la convergencia previa al entrenamiento y aumenta el rendimiento.

  2. Asimismo hereda el sistema de atención de Qwen3-Futuro agresivo el año pasado, diseñado específicamente para achicar la presión de la memoria en contextos muy largos.

El resultado es un maniquí que puede intervenir cómodamente internamente de una ventana de contexto de 256K en la traducción abierta y hasta 1 millón de tokens en la cambio alojada Qwen3.5-Plus en Alibaba Cloud Model Studio.

Multimodal nativo, no atornillado

Durante primaveras, Alibaba adoptó el enfoque unificado de la industria: crear un maniquí de habla y luego conectar un codificador de visión para crear una cambio VL separada. Qwen3.5 abandona ese patrón por completo. El maniquí se entrena desde cero con texto, imágenes y video simultáneamente, lo que significa que el razonamiento visual se entreteje en las representaciones centrales del maniquí en zona de injertarse.

Esto importa en la ejercicio. Los modelos multimodales nativos tienden a exceder a sus contrapartes basados ​​en adaptadores en tareas que requieren un razonamiento auténtico de texto e imagen: piense en analizar un diagrama técnico unido con su documentación, procesar capturas de pantalla de la interfaz de favorecido para tareas de agencia o extraer datos estructurados de diseños visuales complejos. En MathVista, el maniquí obtiene una puntuación de 90,3; en MMMU, 85,0. Está detrás de Gemini 3 en varios puntos de narración específicos de visión, pero supera a Claude Opus 4.5 en tareas multimodales y publica números competitivos frente a GPT-5.2, todo ello con una fracción del recuento de parámetros.

El rendimiento de narración de Qwen3.5 frente a modelos propietarios más grandes es el número que impulsará las conversaciones empresariales.

Según las evaluaciones publicadas por Alibaba, el maniquí 397B-A17B supera al Qwen3-Max, un maniquí con más de un billón de parámetros, en múltiples tareas de razonamiento y codificación.

Asimismo afirma obtener resultados competitivos frente a GPT-5.2, Claude Opus 4.5 y Gemini 3 Pro en pruebas comparativas de codificación y razonamiento universal.

Cobertura de idiomas y eficiencia del tokenizador

Un detalle subestimado en la traducción Qwen3.5 es su difusión multilingüe ampliado. El vocabulario del maniquí ha crecido a 250.000 tokens, frente a los 150.000 de las generaciones Qwen anteriores y ahora comparable al tokenizador de ~256.000 de Google. El soporte de idiomas se expande de 119 idiomas en Qwen 3 a 201 idiomas y dialectos.

La modernización del tokenizador tiene implicaciones de costos directos para las implementaciones globales. Los vocabularios más amplios codifican escrituras no latinas (árabe, tailandés, coreano, japonés, hindi y otros) de forma más eficaz, lo que reduce el recuento de tokens entre un 15 y un 40 % según el idioma. Para las organizaciones de TI que ejecutan IA a escalera en bases de usuarios multilingües, este no es un detalle colegial. Se traduce directamente en menores costos de inferencia y tiempos de respuesta más rápidos.

Capacidades agentes y la integración de OpenClaw

Alibaba está posicionando Qwen3.5 explícitamente como un maniquí agente, diseñado no sólo para objetar a consultas sino para tomar acciones autónomas de varios pasos en nombre de los usuarios y los sistemas. La compañía tiene Qwen Code de código extenso, una interfaz de trayecto de comandos que permite a los desarrolladores delegar tareas de codificación complejas al maniquí en habla natural, más o menos análoga al Claude Code de Anthropic.

El divulgación todavía destaca la compatibilidad con OpenClaw, el situación agente de código extenso que ha aumentado en acogida por parte de los desarrolladores este año. Con 15.000 entornos distintos de entrenamiento de educación por refuerzo utilizados para intensificar el razonamiento del maniquí y la ejecución de tareas, el equipo de Qwen ha hecho una envite deliberada por el entrenamiento basado en RL para mejorar el desempeño agente práctico, una tendencia consistente con lo que MiniMax demostró con M2.5.

La cambio alojada Qwen3.5-Plus todavía permite modos de inferencia adaptativos: un modo rápido para aplicaciones sensibles a la latencia, un modo de pensamiento que permite un razonamiento en cautiverio de pensamiento extendido para tareas complejas y un modo espontáneo (adaptativo) que selecciona dinámicamente. Esa flexibilidad es importante para las implementaciones empresariales donde el mismo maniquí puede carecer servir tanto para interacciones con el cliente en tiempo verdadero como para flujos de trabajo analíticos profundos.

Realidades de la implementación: lo que los equipos de TI verdaderamente necesitan memorizar

La ejecución interna de los pesos abiertos de Qwen3.5 requiere hardware serio. Mientras que una traducción cuantificada exige aproximadamente 256 GB de RAM y, en sinceridad, 512 GB para un espacio vaco cómodo. Este no es un maniquí para una fase de trabajo o un modesto servidor locorregional. Para lo que es adecuado es un nodo GPU, una configuración que muchas empresas ya operan para cargas de trabajo de inferencia y que ahora ofrece una alternativa convincente a las implementaciones dependientes de API.

Todos los modelos Qwen 3.5 de peso extenso se lanzan bajo la deshonestidad Apache 2.0. Esta es una distinción significativa de los modelos con licencias personalizadas o restringidas: Apache 2.0 permite el uso comercial, la modificación y la redistribución sin regalías, sin condiciones significativas. Para los equipos legales y de adquisiciones que evalúan modelos abiertos, esa postura limpia en materia de licencias simplifica considerablemente la conversación.

¿Qué viene luego?

Alibaba ha confirmado que este es el primer divulgación de la grupo Qwen3.5, no el divulgación completo. Basado en el patrón de Qwen3, que presentaba modelos con hasta 600 millones de parámetros, la industria prórroga que en las próximas semanas y meses sigan modelos destilados densos más pequeños y configuraciones MoE adicionales. El maniquí Qwen3-Next 80B de septiembre pasado fue ampliamente considerado como poco capacitado, lo que sugiere que una cambio 3.5 a esa escalera es probable que se mano a corto plazo.

Para los responsables de la toma de decisiones en TI, la trayectoria es clara. Alibaba ha demostrado que los modelos de peso extenso en la frontera ya no son un compromiso. Qwen3.5 es una opción de adquisición genuina para equipos que desean razonamiento de vanguardia, capacidades multimodales nativas y una ventana de contexto de token de 1 millón, sin someterse de una API propietaria. La posterior pregunta no es si esta grupo de modelos tiene la capacidad suficiente. Se alcahuetería de si su infraestructura y su equipo están preparados para aprovecharlo.


Qwen 3.5 es acondicionado ahora en Hugging Face bajo el ID de maniquí Qwen/Qwen3.5-397B-A17B. La cambio alojada Qwen3.5-Plus está acondicionado a través de Estudio de maniquí de nimbo de Alibaba. Chatear con Qwen en chat.qwen.ai ofrece entrada manifiesto regalado para su evaluación.

Related Posts

Scale AI venablo Voice Showdown, el primer punto de relato del mundo positivo para IA de voz, y los resultados son humillantes para algunos de los mejores modelos.

La IA de voz se está moviendo más rápido que las herramientas que utilizamos para medirla. Todos los principales laboratorios de inteligencia químico (OpenAI, Google DeepMind, Anthropic, xAI) están compitiendo…

5 proyectos efectos de impresoras 3D que pueden mejorar tu hogar

La impresión 3D a menudo queda relegada a simplemente producir rellenos de plástico para estantes y dragones flexibles, pero fundir filamentos en diferentes formas…

You Missed

Meditación puede someter la actividad de genes asociados al envejecimiento y el estrés

Meditación puede someter la actividad de genes asociados al envejecimiento y el estrés

Dominicanos en el exógeno podrán comprar su cédula en mayo sin presentarse en el mes de cumpleaños

Dominicanos en el exógeno podrán comprar su cédula en mayo sin presentarse en el mes de cumpleaños

Scale AI venablo Voice Showdown, el primer punto de relato del mundo positivo para IA de voz, y los resultados son humillantes para algunos de los mejores modelos.

Scale AI venablo Voice Showdown, el primer punto de relato del mundo positivo para IA de voz, y los resultados son humillantes para algunos de los mejores modelos.

Jair Bolsonaro sigue en cuidados intensivos

Jair Bolsonaro sigue en cuidados intensivos

Cinco consejos secreto para fomentar el parquedad en niños y jóvenes desde temprana perduración

Cinco consejos secreto para fomentar el parquedad en niños y jóvenes desde temprana perduración

Misil iraní impacta cerca del Monte del Templo en Jerusalén sin dejar heridos, pero sí daños materiales

Misil iraní impacta cerca del Monte del Templo en Jerusalén sin dejar heridos, pero sí daños materiales