
El ahora popular equipo de explicación de Qwen AI de Alibaba lo ha vuelto a hacer: hace poco más de un día, lanzaron el Serie de modelos medianos Qwen3.5 que consta de cuatro nuevos modelos de idioma amplio (LLM) con soporte para llamadas de herramientas agentes, tres de los cuales están disponibles para uso comercial por parte de empresas y desarrolladores independientes bajo la inmoralidad normalizado de código destapado Apache 2.0:
-
Qwen3.5-35B-A3B
-
Qwen3.5-122B-A10B
-
Qwen3.5-27B
Los desarrolladores pueden descargarlos ahora en abrazando la cara y ModeloScope. Un cuarto maniquí, Qwen3.5-Flash, parece ser propietario y sólo está habitable a través del API de estudio de maniquí de aglomeración de Alibabapero aún ofrece una gran delantera en costo en comparación con otros modelos en Oeste (consulte la tabla comparativa de precios a continuación).
Pero el gran modismo de los modelos de código destapado es que ofrecen un rendimiento comparablemente stop en pruebas comparativas de terceros con modelos propietarios de tamaño similar de importantes startups estadounidenses como OpenAI o Anthropic, superando de hecho al GPT-5-mini de OpenAI y al Claude Sonnet 4.5 de Anthropic, este zaguero maniquí que se lanzó hace cinco meses.
Y el equipo de Qwen. dice Ha diseñado estos modelos para que sigan siendo muy precisos incluso cuando "cuantificado," un proceso que reduce aún más su huella al compendiar los números mediante los cuales se almacenan las configuraciones del maniquí de muchos títulos a muchos menos.
Fundamentalmente, este tirada trae "nivel de frontera" ventanas de contexto a la PC de escritorio. El buque insignia Qwen3.5-35B-A3B ahora puede aventajar una largura de contexto de 1 millón de tokens en GPU de consumo con 32 GB de VRAM. Si acertadamente no es poco a lo que todos tengan comunicación, esto es mucho menos computacional que muchas otras opciones de rendimiento comparable.
Este brinco es posible gracias a una precisión casi sin pérdidas con un peso de 4 bits y una cuantificación de elegancia KV, lo que permite a los desarrolladores procesar conjuntos de datos masivos sin una infraestructura de nivel de servidor.
Tecnología: fuerza delta
En el corazón del rendimiento de Qwen 3.5 se encuentra una sofisticada casa híbrida. Si acertadamente muchos modelos se basan nada más en bloques transformadores normalizado, Qwen 3.5 integra redes Delta cerradas combinadas con un sistema disperso de mezcla de expertos (MoE). Las especificaciones técnicas del Qwen3.5-35B-A3B revelan un diseño mucho apto:
-
Eficiencia de parámetros: Si acertadamente el maniquí alberga 35 mil millones de parámetros en total, solo activa 3 mil millones para cualquier token legado.
-
Diferencia de expertos: La capa MoE utiliza 256 expertos, con 8 expertos enrutados y 1 avezado compartido que ayudan a amparar el rendimiento y al mismo tiempo compendiar la latencia de inferencia.
-
Cuantización casi sin pérdidas: La serie mantiene una reincorporación precisión incluso cuando se comprime a pesos de 4 bits, lo que reduce significativamente el uso de memoria para la implementación almacén.
-
Extensión del maniquí saco: En una medida para apoyar a la comunidad de investigación, Alibaba ha destapado el código fuente Qwen3.5-35B-A3B-Cojín maniquí inmediato con las versiones ajustadas por instrucciones.
Producto: Inteligencia que ‘piensa’ primero
Qwen 3.5 presenta un nativo "Modo de pensamiento" como su estado predeterminado. Antiguamente de proporcionar una respuesta final, el maniquí genera una condena de razonamiento interno, delimitada por <think> etiquetas: para trabajar a través de una deducción compleja. La camino de productos está diseñada para distintos entornos de hardware:
-
Qwen3.5-27B: Optimizado para una reincorporación eficiencia, admitiendo una largura de contexto de más de 800 000 tokens.
-
Qwen3.5-Flash: La interpretación alojada de nivel de producción, que presenta una largura de contexto predeterminada de 1 millón de tokens y herramientas oficiales integradas.
-
Qwen3.5-122B-A10B: Diseñado para GPU de nivel de servidor (80 GB de VRAM), este maniquí admite longitudes de contexto de más de 1 millón y, al mismo tiempo, reduce la brecha con los modelos de vanguardia más grandes del mundo.
Los resultados de relato validan este cambio arquitectónico. El maniquí 35B-A3B supera notablemente a sus predecesores mucho más grandes, como el Qwen3-235B, así como a los ya mencionados GPT-5 mini y Sonnet 4.5 en categorías que incluyen conocimiento (MMMLU) y razonamiento visual (MMMU-Pro).
Precios e integración API
Para aquellos que no alojan sus propios pesos, Alibaba Cloud Model Studio proporciona una API competitiva para Qwen3.5-Flash.
-
Aporte: $0,1 por 1 millón de tokens
-
Producción: $0,4 por 1 millón de tokens
-
Creación de elegancia: $0,125 por 1 millón de tokens
-
Repaso de elegancia: $0.01 por 1 millón de tokens
La API igualmente presenta un maniquí de precios granular de Tool Calling, con Web Search a $10 por cada 1000 llamadas y Code Interpreter que se ofrece actualmente por tiempo constreñido sin costo alguno.
Esto convierte a Qwen3.5-Flash en una de las API más asequibles de ejecutar entre todos los principales LLM del mundo. Vea una tabla que los compara a continuación:
|
Maniquí |
Aporte |
Producción |
Costo total |
Fuente |
|
Qwen3 Turbo |
$0.05 |
$0.20 |
$0.25 |
|
|
Qwen3.5-Flash |
$0.10 |
$0.40 |
$0.50 |
|
|
chat de búsqueda profunda (V3.2-Exp) |
$0.28 |
$0.42 |
$0.70 |
|
|
razonador de búsqueda profunda (V3.2-Exp) |
$0.28 |
$0.42 |
$0.70 |
|
|
Grok 4.1 Rápido (razonamiento) |
$0.20 |
$0.50 |
$0.70 |
|
|
Grok 4.1 Rápido (sin razonamiento) |
$0.20 |
$0.50 |
$0.70 |
|
|
Minimax M2.5 |
$0.15 |
$1.20 |
$1.35 |
|
|
MiniMax M2.5-Centella |
$0.30 |
$2.40 |
$2.70 |
|
|
Panorámica previa flash de Géminis 3 |
$0.50 |
$3.00 |
$3.50 |
|
|
Kimi-k2.5 |
$0.60 |
$3.00 |
$3.60 |
|
|
GLM-5 |
$1.00 |
$3.20 |
$4.20 |
|
|
ERNIE 5.0 |
$0.85 |
$3.40 |
$4.25 |
|
|
Claude Haiku 4.5 |
$1.00 |
$5.00 |
$6.00 |
|
|
Qwen3-Max (23/01/2026) |
$1.20 |
$6.00 |
$7.20 |
|
|
Géminis 3 Pro (≤200K) |
$2.00 |
$12.00 |
$14.00 |
|
|
GPT-5.2 |
$1.75 |
$14.00 |
$15.75 |
|
|
Soneto de Claudio 4.5 |
$3.00 |
$15.00 |
$18.00 |
|
|
Géminis 3 Pro (>200K) |
$4.00 |
$18.00 |
$22.00 |
|
|
Cerrar Trabajo 4.6 |
$5.00 |
$25.00 |
$30.00 |
|
|
GPT-5.2 Pro |
$21.00 |
$168.00 |
$189.00 |
Qué significa para los líderes técnicos empresariales y los tomadores de decisiones
Con el tirada de los modelos medianos Qwen3.5, la rápida iteración y el ajuste que alguna vez estuvieron reservados para laboratorios acertadamente financiados ahora están disponibles para el explicación almacén en muchas empresas no técnicas, desvinculando efectivamente la IA sofisticada del compra de hacienda masivo.
En toda la estructura, esta casa transforma la forma en que se manejan y protegen los datos. La capacidad de ingerir localmente repositorios de documentos masivos o vídeos de una hora permite un observación institucional profundo sin los riesgos de privacidad de las API de terceros.
Al ejecutar estos especializados "Mezcla de expertos" modelos internamente de un firewall privado, las organizaciones pueden amparar el control soberano sobre sus datos mientras utilizan nativos "pensamiento" modos y capacidades de señal de herramientas oficiales para construir agentes más confiables y autónomos.
Los primeros usuarios de Hugging Face han elogiado específicamente la capacidad del maniquí para "compendiar la brecha" en escenarios agentes donde antaño solo podían competir los modelos cerrados más grandes.
Este cambio alrededor de la eficiencia arquitectónica sobre la escalera bruta garantiza que la integración de la IA siga siendo lo suficientemente consciente de los costos, segura y ágil para seguir el ritmo de las deyección operativas en proceso.





