
Otro día a finales de 2025, otro resultado impresionante de una empresa china en inteligencia sintético de código franco.
Empresa china de redes sociales. La división de IA de Weibo lanzó recientemente su VibeThinker-1.5B de código franco—Un maniquí de lengua extenso (LLM) de 1.500 millones de parámetros que es una cambio afinada de la empresa tecnológica china rival. Qwen2.5-Math-1.5B de Alibaba.
Ya está apto para su descarga y uso tirado por parte de investigadores y desarrolladores empresariales, incluso con fines comerciales, bajo una inmoralidad MIT permisiva en abrazando la cara, GitHub y ModeloScopecon un documentación técnico en el sitio de publicaciones científicas de llegada franco arxiv.org.
Y, sin requisa, a pesar de su tamaño compacto, VibeThinker-1.5B logra un rendimiento de razonamiento líder en tareas matemáticas y de código, rivalizando o superando a modelos cientos de veces su tamaño, incluso superando al distinguido R1 de su rival chino DeepSeek que se volvió virulento a principios de este año (un maniquí de 671 mil millones de parámetros) en el punto de narración de razonamiento formal.
Eclipsa aún más a Perfecto Medium de Mistral AI y se mantiene firme frente a Claude Opus 4 de Anthropic y gpt-oss-20B Medium de OpenAI, todo ello mientras requiere una fracción de infraestructura e inversión.
Todavía lo hace a posteriori de deber sido capacitado seguidamente con un presupuesto de escasamente $ 7800 USD para capital informáticos (3900 horas de GPU en Nvidia H800), mucho menos que las decenas, o incluso cientos, de miles de dólares que normalmente se requieren para ajustar modelos de escalera similar o anciano.
Sin requisa, recuerde que este no es el costo total del expansión del maniquí: los LLM se capacitan en etapas. Primero viene el entrenamiento previo, cuando el maniquí aprende la estructura básica del lengua y el conocimiento común al predecir la próximo palabra en enormes cantidades de texto de Internet, libros y artículos. Esto le da fluidez pero no mucho sentido de cómo seguir instrucciones o apoyar una conversación.
Luego viene la capacitación posterior, que utiliza conjuntos de datos mucho más pequeños y de anciano calidad (generalmente colecciones de preguntas de ejemplo, indicaciones y respuestas escritas por expertos) para enseñar al maniquí cómo replicar de forma útil, razonar los problemas y alinearse con las expectativas humanas. Aún así, la rentabilidad de Weibo posterior a la capacitación en VibeThinker-1.5B es digna de mención y debe ser elogiada.
La lectura de código franco cambia las suposiciones sobre la escalera de parámetros, la intensidad de cuenta y el tamaño imperceptible viable para los LLM de detención rendimiento.
Un enfoque de formación diferente: espectro a señal
VibeThinker-1.5B debe su rendimiento no a la escalera, sino al ámbito de capacitación detrás de él: el principio de espectro a señal (SSP).
En ocupación de optimizar un maniquí sólo para la corrección de una sola respuesta (Pass@1), el ámbito SSP desacopla el ajuste supervisado (SFT) y el educación por refuerzo (RL) en dos fases distintas con diferentes objetivos:
-
SFT (“Grado de espectro”): El maniquí está entrenado para maximizar la disparidad entre posibles respuestas correctas, mejorando su puntuación Pass@K. Esto genera una amplia gradación de caminos de decisión plausibles.
-
RL (“Grado de señal”): Se utiliza un sistema de educación por refuerzo de segunda etapa (llamado optimización de políticas guiadas por MaxEnt, o MGPO) para identificar y amplificar las rutas más correctas de este peña diverso de soluciones. MGPO prioriza los problemas en los que el maniquí es más incierto y utiliza ponderación basada en entropía para centrar el educación.
Los autores sostienen que esta separación permite que los modelos pequeños exploren el espacio de razonamiento de forma más efectiva, logrando amplificación de la señal sin necesitar de recuentos masivos de parámetros.
VibeThinker-1.5B demuestra de forma convincente que la dependencia de la industria del escalamiento de parámetros como única ruta para mejorar el rendimiento del razonamiento puede estar desactualizada.
Al adoptar un canal de capacitación que prioriza la disparidad, WeiboAI ha demostrado que modelos más pequeños y accesibles pueden igualar e incluso pasar a sistemas de miles de millones de dólares en tareas con mucha método.
La herido huella de capital es uno de los aspectos más importantes de VibeThinker-1.5B. Por menos de 8.000 dólares, el coste posterior a la formación es entre 30 y 60 veces pequeño que el de modelos como DeepSeek R1 y MiniMax-M1, cuyo entrenamiento cuesta entre 294.000 y 535.000 dólares.
Rendimiento en todos los dominios
A pesar de su pequeño tamaño, VibeThinker-1.5B ofrece un razonamiento entre dominios que supera a muchos modelos comerciales y de código franco más grandes:
|
Maniquí |
AIME25 |
LiveCodeBenchv6 |
GPQA-Diamante |
|
VibeThinker-1.5B |
74,4 |
51.1 |
46,7 |
|
GPT-OSS-20B-Medio |
72.1 |
54,9 |
66.0 |
|
Cerrar Trabajo 4 |
69.2 |
56,6 |
79,6 |
|
MiniMax M1 (456B) |
74,6 |
62.3 |
69.2 |
|
DeepSeek R1 (671B) |
70.0 |
65,9 |
71,5 |
|
Kimi K2 (1.09T) |
49,5 |
53,7 |
75.1 |
VibeThinker se comparó con modelos centrados en el razonamiento (Perfecto, Claude, OpenAI o3-mini) y LLM sin razonamiento (GPT-4.1, Kimi K2, DeepSeek V3). En todos los puntos de narración de razonamiento estructurado, el maniquí superó consistentemente a los modelos sin razonamiento, independientemente de su tamaño:
-
En AIME24 (matemáticas), venció a Kimi K2 (1,09T) por más de 10 puntos (80,3 frente a 69,6).
-
En LiveCodeBench v6, superó a Claude Opus 4 (51,1 frente a 47,4).
-
En GPQA, obtuvo una puntuación inferior a GPT-4.1 y Claude, pero aún así duplicó su maniquí cojín (de 16,4 a 46,7).
Esto respalda la afirmación de los autores de que el tamaño no es el único camino en torno a la capacidad de razonamiento: con un diseño de entrenamiento adecuado, los modelos más pequeños pueden alcanzar o incluso pasar el rendimiento de sistemas mucho más grandes en tareas específicas.
En particular, logra paridad con modelos cientos de veces más grandes en matemáticas y código, aunque se queda a espaldas en razonamiento de conocimiento común (GPQA), donde los modelos más grandes mantienen una preeminencia.
Esto sugiere una posible compensación de especialización: si adecuadamente VibeThinker sobresale en tareas lógicas estructuradas, tiene menos capacidad para una recuperación enciclopédica de amplio significación, una traba conocida de las arquitecturas más pequeñas.
Mentor para la apadrinamiento empresarial
La lectura incluye configuraciones de inferencia recomendadas (temperatura = 0,6, top_p = 0,95, tokens máximos = 40960).
El maniquí es lo suficientemente pequeño como para implementarse en dispositivos periféricos, incluidos teléfonos móviles y sistemas integrados en vehículos, mientras que se estima que los costos de inferencia son entre 20 y 70 veces más baratos que con modelos grandes.
Esto posiciona a VibeThinker-1.5B no solo como un logro de investigación, sino igualmente como una cojín potencial para sistemas de razonamiento rentables y desplegables localmente.
Logística y posición de mercado de Weibo
Weibo, audaz por Sina Corporation en 2009, sigue siendo una piedra angular del ecosistema de redes sociales de China. A menudo descrita como la lectura china de X (anteriormente Twitter), la plataforma combina microblogging, contenido multimedia y temas de hogaño con un entorno regulatorio moldeado por una estricta supervisión ministerial.
A pesar de contar con 600 millones de usuarios activos mensuales (más del doble que X), Los inversores no son optimistas sobre su potencial de crecimiento de los ingresos publicitarios. a corto plazo, y Weibo se enfrenta a una competencia cada vez más intensa por parte de plataformas de vídeo como Douyin, que atraen a usuarios más jóvenes y aumentan el tiempo dedicado a otros lugares.
En respuesta, Weibo se ha inclinado en torno a la monetización de la heredad de los creadores, la transmisión en vivo y el video erguido, agregando herramientas para la billete de personas influyentes, la integración del comercio electrónico y prospección más completos para las marcas.
El papel de la plataforma como plaza pública digital igualmente la convierte en un foco de pesquisa regulatorio. Las autoridades chinas continúan ejerciendo presión sobre cuestiones que van desde la gobernanza de contenidos hasta la seguridad de los datos. En septiembre de 2025, Weibo estuvo entre las plataformas citadas en las advertencias oficialesdestacando su continua exposición a los riesgos políticos.
El impulso de Weibo en torno a la I+D de IA, ejemplificado por el extensión de VibeThinker-1.5B, indica un cambio en la aspiración. Más allá de ser una plataforma de medios, Weibo se está posicionando como un actor en la próximo escalón del expansión de la IA en China, utilizando sus reservas de caudal, datos de comportamiento de los usuarios y capacidad de investigación interna para perseguir dominios técnicos adyacentes.
Qué significa para los responsables de la toma de decisiones técnicas empresariales
Para los líderes de ingeniería y los equipos de IA empresarial, el extensión de VibeThinker tiene implicaciones prácticas para todo, desde los procesos de orquestación hasta el modelado de costos.
Un maniquí de 1.500 millones de parámetros que supera a modelos 100 veces más grandes en tareas matemáticas y de programación no solo ahorra computación, sino que cambia el nivelación arquitectónico. Permite la inferencia de LLM en infraestructura restringida, reduce la latencia en el borde y reduce la barrera de entrada para aplicaciones que de otro modo habrían requerido llegada API a modelos cerrados a escalera de frontera.
Esto es importante para los líderes de ML empresarial que intentan implementar agentes con capacidad de razonamiento interiormente de los sistemas existentes, o para los propietarios de plataformas encargados de integrar LLM en flujos de trabajo automatizados.
Todavía se dirige a quienes ejecutan educación reforzado a partir de canales de feedback humana (RLHF) o gestionan la optimización de inferencias en entornos de nubarrón híbrida.
La metodología posterior al entrenamiento del maniquí, en particular su enfoque de educación por refuerzo dirigido a la entropía, ofrece una hoja de ruta para los equipos que buscan perfeccionar puntos de control más pequeños en ocupación de necesitar de un entrenamiento previo a gran escalera.
Los pasos de descontaminación de datos y transparencia de narración de VibeThinker igualmente abordan otra prioridad emergente en la IA empresarial: la auditabilidad. Si adecuadamente su rendimiento en pruebas de conocimientos generales todavía está por detrás de los modelos de gran frontera, su confiabilidad en tareas específicas lo convierte en un candidato atractivo para entornos controlados donde la corrección importa más que la cobertura.
En epítome, VibeThinker-1.5B no es sólo un hito en la investigación: es un resistente candidato para el uso, la implementación y el educación práctico en la empresa. Sugiere que una nueva clase de modelos compactos y de razonamiento optimizado es viable para casos de uso empresarial que antaño eran dominio de sistemas mucho más grandes. Para las organizaciones que intentan equilibrar costos, latencia, interpretabilidad y control, es una buena opción nueva a la larga y creciente directorio de ofertas chinas de código franco.





