Los nuevos modelos Qwen3.5-Medium de código destapado de Alibaba ofrecen rendimiento Sonnet 4.5 en computadoras locales

Los nuevos modelos Qwen3.5-Medium de código destapado de Alibaba ofrecen rendimiento Sonnet 4.5 en computadoras locales

El ahora popular equipo de explicación de Qwen AI de Alibaba lo ha vuelto a hacer: hace poco más de un día, lanzaron el Serie de modelos medianos Qwen3.5 que consta de cuatro nuevos modelos de idioma amplio (LLM) con soporte para llamadas de herramientas agentes, tres de los cuales están disponibles para uso comercial por parte de empresas y desarrolladores independientes bajo la inmoralidad normalizado de código destapado Apache 2.0:

  • Qwen3.5-35B-A3B

  • Qwen3.5-122B-A10B

  • Qwen3.5-27B

Los desarrolladores pueden descargarlos ahora en abrazando la cara y ModeloScope. Un cuarto maniquí, Qwen3.5-Flash, parece ser propietario y sólo está habitable a través del API de estudio de maniquí de aglomeración de Alibabapero aún ofrece una gran delantera en costo en comparación con otros modelos en Oeste (consulte la tabla comparativa de precios a continuación).

Pero el gran modismo de los modelos de código destapado es que ofrecen un rendimiento comparablemente stop en pruebas comparativas de terceros con modelos propietarios de tamaño similar de importantes startups estadounidenses como OpenAI o Anthropic, superando de hecho al GPT-5-mini de OpenAI y al Claude Sonnet 4.5 de Anthropic, este zaguero maniquí que se lanzó hace cinco meses.

Y el equipo de Qwen. dice Ha diseñado estos modelos para que sigan siendo muy precisos incluso cuando "cuantificado," un proceso que reduce aún más su huella al compendiar los números mediante los cuales se almacenan las configuraciones del maniquí de muchos títulos a muchos menos.

Fundamentalmente, este tirada trae "nivel de frontera" ventanas de contexto a la PC de escritorio. El buque insignia Qwen3.5-35B-A3B ahora puede aventajar una largura de contexto de 1 millón de tokens en GPU de consumo con 32 GB de VRAM. Si acertadamente no es poco a lo que todos tengan comunicación, esto es mucho menos computacional que muchas otras opciones de rendimiento comparable.

Este brinco es posible gracias a una precisión casi sin pérdidas con un peso de 4 bits y una cuantificación de elegancia KV, lo que permite a los desarrolladores procesar conjuntos de datos masivos sin una infraestructura de nivel de servidor.

Tecnología: fuerza delta

En el corazón del rendimiento de Qwen 3.5 se encuentra una sofisticada casa híbrida. Si acertadamente muchos modelos se basan nada más en bloques transformadores normalizado, Qwen 3.5 integra redes Delta cerradas combinadas con un sistema disperso de mezcla de expertos (MoE). Las especificaciones técnicas del Qwen3.5-35B-A3B revelan un diseño mucho apto:

  • Eficiencia de parámetros: Si acertadamente el maniquí alberga 35 mil millones de parámetros en total, solo activa 3 mil millones para cualquier token legado.

  • Diferencia de expertos: La capa MoE utiliza 256 expertos, con 8 expertos enrutados y 1 avezado compartido que ayudan a amparar el rendimiento y al mismo tiempo compendiar la latencia de inferencia.

  • Cuantización casi sin pérdidas: La serie mantiene una reincorporación precisión incluso cuando se comprime a pesos de 4 bits, lo que reduce significativamente el uso de memoria para la implementación almacén.

  • Extensión del maniquí saco: En una medida para apoyar a la comunidad de investigación, Alibaba ha destapado el código fuente Qwen3.5-35B-A3B-Cojín maniquí inmediato con las versiones ajustadas por instrucciones.

Producto: Inteligencia que ‘piensa’ primero

Qwen 3.5 presenta un nativo "Modo de pensamiento" como su estado predeterminado. Antiguamente de proporcionar una respuesta final, el maniquí genera una condena de razonamiento interno, delimitada por <think> etiquetas: para trabajar a través de una deducción compleja. La camino de productos está diseñada para distintos entornos de hardware:

  • Qwen3.5-27B: Optimizado para una reincorporación eficiencia, admitiendo una largura de contexto de más de 800 000 tokens.

  • Qwen3.5-Flash: La interpretación alojada de nivel de producción, que presenta una largura de contexto predeterminada de 1 millón de tokens y herramientas oficiales integradas.

  • Qwen3.5-122B-A10B: Diseñado para GPU de nivel de servidor (80 GB de VRAM), este maniquí admite longitudes de contexto de más de 1 millón y, al mismo tiempo, reduce la brecha con los modelos de vanguardia más grandes del mundo.

Los resultados de relato validan este cambio arquitectónico. El maniquí 35B-A3B supera notablemente a sus predecesores mucho más grandes, como el Qwen3-235B, así como a los ya mencionados GPT-5 mini y Sonnet 4.5 en categorías que incluyen conocimiento (MMMLU) y razonamiento visual (MMMU-Pro).

Precios e integración API

Para aquellos que no alojan sus propios pesos, Alibaba Cloud Model Studio proporciona una API competitiva para Qwen3.5-Flash.

  • Aporte: $0,1 por 1 millón de tokens

  • Producción: $0,4 por 1 millón de tokens

  • Creación de elegancia: $0,125 por 1 millón de tokens

  • Repaso de elegancia: $0.01 por 1 millón de tokens

La API igualmente presenta un maniquí de precios granular de Tool Calling, con Web Search a $10 por cada 1000 llamadas y Code Interpreter que se ofrece actualmente por tiempo constreñido sin costo alguno.

Esto convierte a Qwen3.5-Flash en una de las API más asequibles de ejecutar entre todos los principales LLM del mundo. Vea una tabla que los compara a continuación:

Maniquí

Aporte

Producción

Costo total

Fuente

Qwen3 Turbo

$0.05

$0.20

$0.25

Nubarrón de Alibaba

Qwen3.5-Flash

$0.10

$0.40

$0.50

Nubarrón de Alibaba

chat de búsqueda profunda (V3.2-Exp)

$0.28

$0.42

$0.70

búsqueda profunda

razonador de búsqueda profunda (V3.2-Exp)

$0.28

$0.42

$0.70

búsqueda profunda

Grok 4.1 Rápido (razonamiento)

$0.20

$0.50

$0.70

xAI

Grok 4.1 Rápido (sin razonamiento)

$0.20

$0.50

$0.70

xAI

Minimax M2.5

$0.15

$1.20

$1.35

minimax

MiniMax M2.5-Centella

$0.30

$2.40

$2.70

minimax

Panorámica previa flash de Géminis 3

$0.50

$3.00

$3.50

Google

Kimi-k2.5

$0.60

$3.00

$3.60

Disparo a la vidriera

GLM-5

$1.00

$3.20

$4.20

Z.ai

ERNIE 5.0

$0.85

$3.40

$4.25

Baidu

Claude Haiku 4.5

$1.00

$5.00

$6.00

antrópico

Qwen3-Max (23/01/2026)

$1.20

$6.00

$7.20

Nubarrón de Alibaba

Géminis 3 Pro (≤200K)

$2.00

$12.00

$14.00

Google

GPT-5.2

$1.75

$14.00

$15.75

Libre AI

Soneto de Claudio 4.5

$3.00

$15.00

$18.00

antrópico

Géminis 3 Pro (>200K)

$4.00

$18.00

$22.00

Google

Cerrar Trabajo 4.6

$5.00

$25.00

$30.00

antrópico

GPT-5.2 Pro

$21.00

$168.00

$189.00

Libre AI

Qué significa para los líderes técnicos empresariales y los tomadores de decisiones

Con el tirada de los modelos medianos Qwen3.5, la rápida iteración y el ajuste que alguna vez estuvieron reservados para laboratorios acertadamente financiados ahora están disponibles para el explicación almacén en muchas empresas no técnicas, desvinculando efectivamente la IA sofisticada del compra de hacienda masivo.

En toda la estructura, esta casa transforma la forma en que se manejan y protegen los datos. La capacidad de ingerir localmente repositorios de documentos masivos o vídeos de una hora permite un observación institucional profundo sin los riesgos de privacidad de las API de terceros.

Al ejecutar estos especializados "Mezcla de expertos" modelos internamente de un firewall privado, las organizaciones pueden amparar el control soberano sobre sus datos mientras utilizan nativos "pensamiento" modos y capacidades de señal de herramientas oficiales para construir agentes más confiables y autónomos.

Los primeros usuarios de Hugging Face han elogiado específicamente la capacidad del maniquí para "compendiar la brecha" en escenarios agentes donde antaño solo podían competir los modelos cerrados más grandes.

Este cambio alrededor de la eficiencia arquitectónica sobre la escalera bruta garantiza que la integración de la IA siga siendo lo suficientemente consciente de los costos, segura y ágil para seguir el ritmo de las deyección operativas en proceso.

Related Posts

Modelador de mini amplificadores Quad Cortex: toda la potencia, la fracción del tamaño

“Master of the Universe”, mi canción de demostración que muestra poco de lo que puede hacer el Quad Cortex mini. capturado Cuando se prostitución de fijar, no tiene que preocuparse…

¡El hermoso y pequeño Logitech Pebble Mouse 2 M350s cuesta solo $ 17,95!

Esta propuesta está arreglado en Amazon. Lo único que hay que tener en cuenta es que sólo la lectura en color triste tiene un descuento tan bajo. Los modelos Rose…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Marichal sobre equipo RD en el Clásico Mundial: “Me hacen notar orgulloso”

Marichal sobre equipo RD en el Clásico Mundial: “Me hacen notar orgulloso”

Jueza escuchó varios testigos del Servicio Manifiesto contra Elizabeth Silverio y aplaza proceso

Jueza escuchó varios testigos del Servicio Manifiesto contra Elizabeth Silverio y aplaza proceso

Policía ultima a dos presuntos delincuentes tras enfrentamiento en Bajos de Haina

Policía ultima a dos presuntos delincuentes tras enfrentamiento en Bajos de Haina

Modelador de mini amplificadores Quad Cortex: toda la potencia, la fracción del tamaño

Modelador de mini amplificadores Quad Cortex: toda la potencia, la fracción del tamaño

Condenan a 15 primaveras a tres venezolanos por explotación sexual

Condenan a 15 primaveras a tres venezolanos por explotación sexual

Operativos en Tolima logran captura de hermanos de Iván Mordisco

Operativos en Tolima logran captura de hermanos de Iván Mordisco