Los nuevos modelos Qwen3.5-Medium de código destapado de Alibaba ofrecen rendimiento Sonnet 4.5 en computadoras locales

Los nuevos modelos Qwen3.5-Medium de código destapado de Alibaba ofrecen rendimiento Sonnet 4.5 en computadoras locales

El ahora popular equipo de explicación de Qwen AI de Alibaba lo ha vuelto a hacer: hace poco más de un día, lanzaron el Serie de modelos medianos Qwen3.5 que consta de cuatro nuevos modelos de idioma amplio (LLM) con soporte para llamadas de herramientas agentes, tres de los cuales están disponibles para uso comercial por parte de empresas y desarrolladores independientes bajo la inmoralidad normalizado de código destapado Apache 2.0:

  • Qwen3.5-35B-A3B

  • Qwen3.5-122B-A10B

  • Qwen3.5-27B

Los desarrolladores pueden descargarlos ahora en abrazando la cara y ModeloScope. Un cuarto maniquí, Qwen3.5-Flash, parece ser propietario y sólo está habitable a través del API de estudio de maniquí de aglomeración de Alibabapero aún ofrece una gran delantera en costo en comparación con otros modelos en Oeste (consulte la tabla comparativa de precios a continuación).

Pero el gran modismo de los modelos de código destapado es que ofrecen un rendimiento comparablemente stop en pruebas comparativas de terceros con modelos propietarios de tamaño similar de importantes startups estadounidenses como OpenAI o Anthropic, superando de hecho al GPT-5-mini de OpenAI y al Claude Sonnet 4.5 de Anthropic, este zaguero maniquí que se lanzó hace cinco meses.

Y el equipo de Qwen. dice Ha diseñado estos modelos para que sigan siendo muy precisos incluso cuando "cuantificado," un proceso que reduce aún más su huella al compendiar los números mediante los cuales se almacenan las configuraciones del maniquí de muchos títulos a muchos menos.

Fundamentalmente, este tirada trae "nivel de frontera" ventanas de contexto a la PC de escritorio. El buque insignia Qwen3.5-35B-A3B ahora puede aventajar una largura de contexto de 1 millón de tokens en GPU de consumo con 32 GB de VRAM. Si acertadamente no es poco a lo que todos tengan comunicación, esto es mucho menos computacional que muchas otras opciones de rendimiento comparable.

Este brinco es posible gracias a una precisión casi sin pérdidas con un peso de 4 bits y una cuantificación de elegancia KV, lo que permite a los desarrolladores procesar conjuntos de datos masivos sin una infraestructura de nivel de servidor.

Tecnología: fuerza delta

En el corazón del rendimiento de Qwen 3.5 se encuentra una sofisticada casa híbrida. Si acertadamente muchos modelos se basan nada más en bloques transformadores normalizado, Qwen 3.5 integra redes Delta cerradas combinadas con un sistema disperso de mezcla de expertos (MoE). Las especificaciones técnicas del Qwen3.5-35B-A3B revelan un diseño mucho apto:

  • Eficiencia de parámetros: Si acertadamente el maniquí alberga 35 mil millones de parámetros en total, solo activa 3 mil millones para cualquier token legado.

  • Diferencia de expertos: La capa MoE utiliza 256 expertos, con 8 expertos enrutados y 1 avezado compartido que ayudan a amparar el rendimiento y al mismo tiempo compendiar la latencia de inferencia.

  • Cuantización casi sin pérdidas: La serie mantiene una reincorporación precisión incluso cuando se comprime a pesos de 4 bits, lo que reduce significativamente el uso de memoria para la implementación almacén.

  • Extensión del maniquí saco: En una medida para apoyar a la comunidad de investigación, Alibaba ha destapado el código fuente Qwen3.5-35B-A3B-Cojín maniquí inmediato con las versiones ajustadas por instrucciones.

Producto: Inteligencia que ‘piensa’ primero

Qwen 3.5 presenta un nativo "Modo de pensamiento" como su estado predeterminado. Antiguamente de proporcionar una respuesta final, el maniquí genera una condena de razonamiento interno, delimitada por <think> etiquetas: para trabajar a través de una deducción compleja. La camino de productos está diseñada para distintos entornos de hardware:

  • Qwen3.5-27B: Optimizado para una reincorporación eficiencia, admitiendo una largura de contexto de más de 800 000 tokens.

  • Qwen3.5-Flash: La interpretación alojada de nivel de producción, que presenta una largura de contexto predeterminada de 1 millón de tokens y herramientas oficiales integradas.

  • Qwen3.5-122B-A10B: Diseñado para GPU de nivel de servidor (80 GB de VRAM), este maniquí admite longitudes de contexto de más de 1 millón y, al mismo tiempo, reduce la brecha con los modelos de vanguardia más grandes del mundo.

Los resultados de relato validan este cambio arquitectónico. El maniquí 35B-A3B supera notablemente a sus predecesores mucho más grandes, como el Qwen3-235B, así como a los ya mencionados GPT-5 mini y Sonnet 4.5 en categorías que incluyen conocimiento (MMMLU) y razonamiento visual (MMMU-Pro).

Precios e integración API

Para aquellos que no alojan sus propios pesos, Alibaba Cloud Model Studio proporciona una API competitiva para Qwen3.5-Flash.

  • Aporte: $0,1 por 1 millón de tokens

  • Producción: $0,4 por 1 millón de tokens

  • Creación de elegancia: $0,125 por 1 millón de tokens

  • Repaso de elegancia: $0.01 por 1 millón de tokens

La API igualmente presenta un maniquí de precios granular de Tool Calling, con Web Search a $10 por cada 1000 llamadas y Code Interpreter que se ofrece actualmente por tiempo constreñido sin costo alguno.

Esto convierte a Qwen3.5-Flash en una de las API más asequibles de ejecutar entre todos los principales LLM del mundo. Vea una tabla que los compara a continuación:

Maniquí

Aporte

Producción

Costo total

Fuente

Qwen3 Turbo

$0.05

$0.20

$0.25

Nubarrón de Alibaba

Qwen3.5-Flash

$0.10

$0.40

$0.50

Nubarrón de Alibaba

chat de búsqueda profunda (V3.2-Exp)

$0.28

$0.42

$0.70

búsqueda profunda

razonador de búsqueda profunda (V3.2-Exp)

$0.28

$0.42

$0.70

búsqueda profunda

Grok 4.1 Rápido (razonamiento)

$0.20

$0.50

$0.70

xAI

Grok 4.1 Rápido (sin razonamiento)

$0.20

$0.50

$0.70

xAI

Minimax M2.5

$0.15

$1.20

$1.35

minimax

MiniMax M2.5-Centella

$0.30

$2.40

$2.70

minimax

Panorámica previa flash de Géminis 3

$0.50

$3.00

$3.50

Google

Kimi-k2.5

$0.60

$3.00

$3.60

Disparo a la vidriera

GLM-5

$1.00

$3.20

$4.20

Z.ai

ERNIE 5.0

$0.85

$3.40

$4.25

Baidu

Claude Haiku 4.5

$1.00

$5.00

$6.00

antrópico

Qwen3-Max (23/01/2026)

$1.20

$6.00

$7.20

Nubarrón de Alibaba

Géminis 3 Pro (≤200K)

$2.00

$12.00

$14.00

Google

GPT-5.2

$1.75

$14.00

$15.75

Libre AI

Soneto de Claudio 4.5

$3.00

$15.00

$18.00

antrópico

Géminis 3 Pro (>200K)

$4.00

$18.00

$22.00

Google

Cerrar Trabajo 4.6

$5.00

$25.00

$30.00

antrópico

GPT-5.2 Pro

$21.00

$168.00

$189.00

Libre AI

Qué significa para los líderes técnicos empresariales y los tomadores de decisiones

Con el tirada de los modelos medianos Qwen3.5, la rápida iteración y el ajuste que alguna vez estuvieron reservados para laboratorios acertadamente financiados ahora están disponibles para el explicación almacén en muchas empresas no técnicas, desvinculando efectivamente la IA sofisticada del compra de hacienda masivo.

En toda la estructura, esta casa transforma la forma en que se manejan y protegen los datos. La capacidad de ingerir localmente repositorios de documentos masivos o vídeos de una hora permite un observación institucional profundo sin los riesgos de privacidad de las API de terceros.

Al ejecutar estos especializados "Mezcla de expertos" modelos internamente de un firewall privado, las organizaciones pueden amparar el control soberano sobre sus datos mientras utilizan nativos "pensamiento" modos y capacidades de señal de herramientas oficiales para construir agentes más confiables y autónomos.

Los primeros usuarios de Hugging Face han elogiado específicamente la capacidad del maniquí para "compendiar la brecha" en escenarios agentes donde antaño solo podían competir los modelos cerrados más grandes.

Este cambio alrededor de la eficiencia arquitectónica sobre la escalera bruta garantiza que la integración de la IA siga siendo lo suficientemente consciente de los costos, segura y ágil para seguir el ritmo de las deyección operativas en proceso.

Related Posts

El thriller de 2000 de Christopher Nolan es una de las mejores películas de HBO Max en este momento

Nuevo mercado Christopher Nolan es conocido por algunas grandes películas como “Inception”, “Oppenheimer”, “Dunkirk” e “Interstellar”. Por supuesto, incluso es agradecido por…

Ignorar la regla de “nunca comprar un SSD usado” para unidades empresariales es el truco definitivo para la construcción de PC

Es tentador comprar cualquier cuarto de PC usada que pueda teniendo en cuenta lo caro que está el mercado en este momento. Por lo caudillo, no se recomienda comprar SSD…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

El thriller de 2000 de Christopher Nolan es una de las mejores películas de HBO Max en este momento

El thriller de 2000 de Christopher Nolan es una de las mejores películas de HBO Max en este momento

EE.UU. levanta sanciones para explotación oro en Venezuela | AlMomento.net

EE.UU. levanta sanciones para explotación oro en Venezuela | AlMomento.net

Ignorar la regla de “nunca comprar un SSD usado” para unidades empresariales es el truco definitivo para la construcción de PC

Ignorar la regla de “nunca comprar un SSD usado” para unidades empresariales es el truco definitivo para la construcción de PC

TNR y Bandada Agrícola invierten RD$10 millones en modernización de riego en Bahoruco y Barahona

TNR y Bandada Agrícola invierten RD millones en modernización de riego en Bahoruco y Barahona

Carreteras nuevas y conductas viejas – Remolacha

Carreteras nuevas y conductas viejas – Remolacha

Una dominicana liderará la agencia de educación superior de Nueva York – Remolacha

Una dominicana liderará la agencia de educación superior de Nueva York – Remolacha