Qwen3-Max Thinking supera a Gemini 3 Pro y GPT-5.2 en el final examen de la humanidad (con búsqueda)

Las empresas chinas de tecnología e inteligencia industrial continúan impresionando con el avance de modelos de habla de inteligencia industrial de última reproducción.

Hoy, el que apasionamiento la atención es el equipo Qwen de investigadores de IA de Alibaba Cloud y su presentación de un nuevo maniquí de razonamiento de habla propietario. Qwen3-Max-Pensamiento.

Quizás recuerde, como lo cubrió VentureBeat el año pasado, que Qwen se ha hecho un nombre en el mercado integral de IA en rápido movimiento al ofrecer una variedad de modelos potentes y de código hendido en varias modalidades, desde texto hasta imágenes y audio hablado. La compañía incluso obtuvo el respaldo del titán estadounidense de alojamiento tecnológico Airbnb, cuyo director ejecutor y cofundador Brian Chesky dijo que la empresa confiaba en los modelos gratuitos y de código hendido de Qwen. como una alternativa más asequible a ofertas estadounidenses como las de OpenAI.

Ahora, con el Qwen3-Max-Thinking patentado, el equipo Qwen pretende igualar y, en algunos casos, exceder las capacidades de razonamiento de GPT-5.2 y Gemini 3 Pro a través de la eficiencia arquitectónica y la autonomía agente.

La huida llega en un momento crítico. Los laboratorios occidentales han definido en gran medida la "razonamiento" categoría (a menudo denominada "Sistema 2" deducción), pero los últimos puntos de relato de Qwen sugieren que la brecha se ha cerrado.

Encima, el precio relativamente asequible de la empresa Táctica de precios de API apunta agresivamente a la prohijamiento empresarial. Sin retención, como se proxenetismo de un maniquí chino, algunas empresas estadounidenses con estrictos requisitos y consideraciones de seguridad doméstico pueden desconfiar de adoptarlo.

La Casa: "Escalado en tiempo de prueba" Redefinido

La principal innovación que impulsa Qwen3-Max-Thinking es una desviación de los métodos de inferencia típico. Si aceptablemente la mayoría de los modelos generan tokens de forma directo, Qwen3 utiliza un "modo pesado" impulsado por una técnica conocida como "Escalado en el tiempo de prueba."

En términos simples, esta técnica permite que el maniquí intercambie computación por inteligencia. Pero a diferencia de ingenuo "lo mejor de n" muestreo, donde un maniquí puede producir 100 respuestas y nominar la mejor, Qwen3-Max-Thinking emplea una logística de múltiples rondas de experiencia acumulativa.

Este enfoque imita la resolución de problemas humanos. Cuando el maniquí encuentra una consulta compleja, no se limita a adivinar; se involucra en una autorreflexión iterativa. Utiliza un propietario "tomar experiencia" Mecanismo para destilar ideas de pasos de razonamiento previos. Esto permite al maniquí:

Identificar callejones sin salida: Reconozca cuándo equivocación una tilde de razonamiento sin requisito de recorrerla por completo.
Cálculo de enfoque: Redirigir el poder de procesamiento con destino a "incertidumbres no resueltas" en circunstancia de retornar a derivar conclusiones conocidas.

Las ganancias de eficiencia son tangibles. Al evitar razonamientos redundantes, el maniquí integra un contexto histórico más rico en la misma ventana. El equipo de Qwen informa que este método impulsó saltos masivos de rendimiento sin disparar los costos de los tokens:

GPQA (ciencias a nivel de doctorado): Las puntuaciones mejoraron de 90,3 a 92,8.
LiveCodeBench v6: El rendimiento saltó de 88,0 a 91,4.

Más allá del pensamiento puro: herramientas adaptativas

Mientras "pensamiento" Los modelos son poderosos, históricamente han estado aislados: excelentes en matemáticas, pero deficientes para navegar por la web o ejecutar código. Qwen3-Max-Thinking cierra esta brecha integrando efectivamente "modos de pensar y no pensar".

El maniquí presenta capacidades de uso de herramientas adaptables, lo que significa que selecciona de forma autónoma la utensilio adecuada para el trabajo sin que el legatario se lo indique manualmente. Puede frecuentar sin problemas entre:

Búsqueda y ascendencia web: Para consultas factuales en tiempo actual.
Memoria: Para juntar y recuperar contexto específico del legatario.
Intérprete de código: Escribir y ejecutar fragmentos de Python para tareas computacionales.

En "modo de pensamiento," el maniquí soporta estas herramientas simultáneamente. Esta capacidad es fundamental para aplicaciones empresariales donde un maniquí puede precisar corroborar un hecho (Apañarse), calcular una proyección (Intérprete de código) y luego razonar sobre la implicación estratégica (Pensamiento), todo en un solo turno.

Empíricamente, el equipo observa que esta combinación "mitiga eficazmente las alucinaciones," ya que el maniquí puede descansar su razonamiento en datos externos verificables en circunstancia de necesitar exclusivamente de sus pesos de entrenamiento.

Estudio de relato: la historia de los datos

Qwen no se avergüenza de las comparaciones directas.

En el HMMT del 25 de febrero, un punto de relato de razonamiento riguroso, Qwen3-Max-Thinking obtuvo una puntuación de 98,0, superando a Gemini 3 Pro (97,5) y liderando significativamente a DeepSeek V3.2 (92,5).

Sin retención, podría decirse que la señal más importante para los desarrolladores es Agentic Search. En "El final examen de la humanidad" (HLE): el punto de relato que mide el rendimiento en 3000 "A prueba de Google" preguntas a nivel de posgrado en matemáticas, ciencias, informática, humanidades e ingeniería: Qwen3-Max-Thinking, equipado con herramientas de búsqueda web, obtuvo una puntuación de 49,8, superando a Gemini 3 Pro (45,8) y GPT-5.2-Thinking (45,5). .

Esto sugiere que la inmueble de Qwen3-Max-Thinking es especialmente adecuada para flujos de trabajo agentes complejos de varios pasos donde es necesaria la recuperación de datos externos.

En tareas de codificación, el maniquí asimismo brilla. En Arena-Hard v2, obtuvo una puntuación de 90,2, dejando muy antes a competidores como Claude-Opus-4.5 (76,7).

La caudal del razonamiento: desglose de precios

Por primera vez, tenemos una visión clara de la caudal del maniquí de razonamiento de primer nivel de Qwen. Alibaba Cloud se ha posicionado qwen3-max-2026-01-23 como ofrecimiento premium pero accesible en su API.

Aporte: $1.20 por 1 millón de tokens (para contextos típico <= 32k).
Producción: $6.00 por 1 millón de tokens.

En un nivel fundamental, así es como se compara Qwen3-Max-Thinking:

Maniquí	Entrada (/1M)	Salida (/1M)	Costo Total	Fuente
Qwen3 Turbo	$0.05	$0.20	$0.25	Cirro de Alibaba
Grok 4.1 Rápido (razonamiento)	$0.20	$0.50	$0.70	xAI
Grok 4.1 Rápido (sin razonamiento)	$0.20	$0.50	$0.70	xAI
chat de búsqueda profunda (V3.2-Exp)	$0.28	$0.42	$0.70	búsqueda profunda
razonador de búsqueda profunda (V3.2-Exp)	$0.28	$0.42	$0.70	búsqueda profunda
Qwen 3 Plus	$0.40	$1.20	$1.60	Cirro de Alibaba
ERNIE 5.0	$0.85	$3.40	$4.25	Qianfan
Tino previa flash de Géminis 3	$0.50	$3.00	$3.50	Google
Claude Haiku 4.5	$1.00	$5.00	$6.00	antrópico
Pensamiento Qwen3-Max (2026-01-23)	$1.20	$6.00	$7.20	Cirro de Alibaba
Géminis 3 Pro (≤200K)	$2.00	$12.00	$14.00	Google
GPT-5.2	$1.75	$14.00	$15.75	AbiertoAI
Soneto de Claudio 4.5	$3.00	$15.00	$18.00	antrópico
Géminis 3 Pro (>200K)	$4.00	$18.00	$22.00	Google
Cerrar Trabajo 4.5	$5.00	$25.00	$30.00	antrópico
GPT-5.2 Pro	$21.00	$168.00	$189.00	AbiertoAI

Esta estructura de precios es agresiva y descuento muchos modelos emblemáticos heredados y, al mismo tiempo, ofrece un rendimiento de última reproducción.

Sin retención, los desarrolladores deben tener en cuenta los precios granulares de las nuevas capacidades agentes, ya que Qwen separa el costo de "pensamiento" (tokens) del costo de "haciendo" (uso de herramientas).

Táctica de búsqueda de agentes: Uno y otro típico search_strategy:agent y cuanto más reformista search_strategy:agent_max tienen un precio de $10 por cada 1000 llamadas.
- Nota: El agent_max La logística está actualmente marcada como "Proposición por tiempo acotado," sugiriendo que su precio podría subir más delante.
Búsqueda web: Con un precio de $10 por cada 1000 llamadas a través de la API de Responses.

Nivel sin cargo promocional:Para fomentar la prohijamiento de sus funciones más avanzadas, Alibaba Cloud ofrece actualmente dos herramientas esencia de forma gratuita por tiempo acotado:

Extractor web: De gorra (Por tiempo acotado).
Intérprete de código: De gorra (Por tiempo acotado).

Este maniquí de precios (bajo costo simbólico + precio de herramientas a la carta) permite a los desarrolladores crear agentes complejos que sean rentables para el procesamiento de textos, mientras pagan una prima solo cuando se activan explícitamente acciones externas, como una búsqueda web en vivo.

Ecosistema de desarrolladores

Al escudriñar que el rendimiento es inútil sin integración, Alibaba Cloud se ha asegurado de que Qwen3-Max-Thinking esté vivo para su instalación.

Compatibilidad con OpenAI: La API admite el formato típico OpenAI, lo que permite a los equipos cambiar de maniquí simplemente cambiando el base_url y model nombre.
Compatibilidad antrópica: En un movimiento inteligente para capturar el mercado de la codificación, la API asimismo es compatible con el protocolo Anthropic. Esto hace que Qwen3-Max-Thinking sea compatible con Código Claudeun entorno de codificación agente popular.

El veredicto

Qwen3-Max-Thinking representa una maduración del mercado de la IA en 2026. Lleva la conversación más allá "¿Quién tiene el chatbot más inteligente?" a "quién tiene el agente más capaz."

Al combinar el razonamiento de entrada eficiencia con el uso de herramientas adaptables y autónomas (y fijarle un precio para moverse), Qwen se ha establecido firmemente como un contendiente de primer nivel para el trono de la IA empresarial.

Para desarrolladores y empresas, el "De gorra por tiempo acotado" Las ventanas de Code Interpreter y Web Extractor sugieren que ahora es el momento de estudiar. Las guerras de razonamiento están allí de terminar, pero Qwen acaba de desplegar un gran bateador.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Qwen3-Max Thinking supera a Gemini 3 Pro y GPT-5.2 en el final examen de la humanidad (con búsqueda)

La Casa: "Escalado en tiempo de prueba" Redefinido

Más allá del pensamiento puro: herramientas adaptativas

Estudio de relato: la historia de los datos

La caudal del razonamiento: desglose de precios

Ecosistema de desarrolladores

El veredicto

ztevenreal

Related Posts

Seis grandes cambios a medida que el ícono del riqueza se vuelve eléctrico

Casi dejo Succession posteriormente del episodio 3; terminar fue una de mis mejores decisiones televisivas

You Missed

Enrique Iglesias sorprende al mostrar sus cuatro hijos con Anna Kournikova – Remolacha

CODESSD y PNUD anuncian billete de la Premio Nobel Rigoberta Menchú en ExpoSostenible 2026

Seis grandes cambios a medida que el ícono del riqueza se vuelve eléctrico

República Dominicana y Francia concluyen ejercicios militares DUNAS 2026

Lo que el caso Pumarol revela sobre la inimputabilidad en República Dominicana

Las diferencias entre Trump y Netanyahu por el ataque a mina son las más notables del conflicto