
La última incorporación a la ola de modelos pequeños para empresas proviene de Ai21 buenoque postura a que resistir modelos a los dispositivos liberará tráfico en los centros de datos.
Viga Reasoning 3B de AI21, un maniquí “pequeño” de código destapado que puede ejecutar razonamiento extendido, vivientes de código y reponer basándose en la verdad del contorno. Viga Reasoning 3B maneja más de 250.000 tokens y puede ejecutar inferencias en dispositivos perimetrales.
La compañía dijo que Viga Reasoning 3B funciona en dispositivos como computadoras portátiles y teléfonos móviles.
Ori Goshen, codirector ejecutor de AI21, dijo a VentureBeat que la compañía ve más casos de uso empresarial para modelos pequeños, principalmente porque trasladar la maduro parte de la inferencia a los dispositivos libera los centros de datos.
“Lo que estamos viendo ahora en la industria es un problema crematístico donde hay construcciones de centros de datos muy costosas, y los ingresos que se generan a partir de los centros de datos frente a la tasa de depreciación de todos sus chips muestran que las matemáticas no cuadran”, dijo Goshen.
Añadió que en el futuro “la industria en universal será híbrida en el sentido de que parte del cálculo se realizará en dispositivos locales y otras inferencias se trasladarán a las GPU”.
Probado en una MacBook
Viga Reasoning 3B combina la obra Mamba y Transformers para permitirle ejecutar una ventana de token de 250K en dispositivos. AI21 dijo que puede realizar velocidades de inferencia entre 2 y 4 veces más rápidas. Goshen dijo que la obra Mamba contribuyó significativamente a la velocidad del maniquí.
La obra híbrida de Viga Reasoning 3B todavía le permite sujetar los requisitos de memoria, reduciendo así sus evacuación informáticas.
AI21 probó el maniquí en una MacBook Pro en serie y descubrió que puede procesar 35 tokens por segundo.
Goshen dijo que el maniquí funciona mejor para tareas que involucran llamadas a funciones, vivientes basada en políticas y enrutamiento de herramientas. Dijo que solicitudes simples, como pedir información sobre una próxima reunión y pedirle al maniquí que cree una memorándum para ella, se podrían realizar en dispositivos. Las tareas de razonamiento más complejas se pueden velar para clústeres de GPU.
Pequeños modelos en la empresa.
Las empresas han estado interesadas en utilizar una combinación de modelos pequeños, algunos de los cuales están diseñados específicamente para su industria y otros son versiones condensadas de LLM.
En septiembre, Meta descocado MobileLLM-R1, una clan de modelos de razonamiento que van desde 140M a 950M parámetros. Estos modelos están diseñados para matemáticas, codificación y razonamiento investigador en punto de aplicaciones de chat. MobileLLM-R1 puede ejecutarse en dispositivos con limitaciones informáticas.
Google‘s Renuevo Fue uno de los primeros modelos pequeños que llegó al mercado, diseñado para funcionar en dispositivos portátiles como ordenadores portátiles y teléfonos móviles. Gemma ha desde entonces sido ampliado.
Empresas como ICO Igualmente han comenzado a construir sus propios modelos. FICO valiente sus pequeños modelos FICO Focused Language y FICO Focused Sequence que solo responderán preguntas específicas de finanzas.
Goshen dijo que la gran diferencia que ofrece su maniquí es que es incluso más pequeño que la mayoría de los modelos y, sin bloqueo, puede ejecutar tareas de razonamiento sin inmolar la velocidad.
Pruebas de relato
En las pruebas comparativas, Viga Reasoning 3B demostró un rendimiento sólido en comparación con otros modelos pequeños, incluidos Qwen 4B, MetaArdor 3.2B-3B y Phi-4-Mini de microsoft.
Superó a todos los modelos en la prueba IFBench y Humanity’s Last Exam, aunque quedó en segundo punto detrás de Qwen 4 en MMLU-Pro.
Goshen dijo que otra preeminencia de los modelos pequeños como Viga Reasoning 3B es que son enormemente orientables y brindan mejores opciones de privacidad a las empresas porque la inferencia no se envía a un servidor en otro punto.
“Creo que hay un mundo en el que se pueden optimizar las evacuación y la experiencia del cliente, y los modelos que se mantendrán en los dispositivos son una gran parte de ello”, afirmó.






