¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora
Los modelos pequeños están teniendo un momento. Posteriormente del emanación de un nuevo maniquí de visión de IA Lo suficientemente pequeño como para entrar en un temporalizador inteligente de MIT Spin -off Liquid AI y un maniquí lo suficientemente pequeño como para ejecutar un teléfono inteligente desde Google, Nvidia se unirá a la fiesta hoy con Un nuevo maniquí de lengua pequeño (SLM) por su cuenta, Nemotron-nano-9b-v2que alcanzó el veterano rendimiento en su clase en puntos de relato seleccionados y viene con la capacidad de que los usuarios activen y apagen el “razonamiento” de AI, es proponer, la auto-verificación antaño de difundir una respuesta.
Mientras que los 9 mil millones de parámetros son más grandes que algunos de los parámetros multimillonarios, los modelos pequeños que VentureBeat ha cubierto recientementeNvidia señala que es una reducción significativa de su tamaño flamante de 12 mil millones de parámetros y está diseñado para encajar en un GPU NVIDIA A10.
Como Oleksii Kuchiaev, Director de Nvidia del maniquí AI posteriormente de la capacitación, dijo en x En respuesta a una pregunta que le presenté: “El 12B fue podado a 9B para adaptarse específicamente a A10, que es una opción popular de GPU para la implementación. Todavía es un maniquí híbrido que le permite procesar un tamaño por lotes más excelso y ser hasta 6 veces más rápido que los modelos de transformadores de tamaño similar “.
Para el contexto, muchos LLM principales se encuentran en el rango de parámetros de más de 70 mil millones (los parámetros de recuperación se refieren a la configuración interna que rige el comportamiento del maniquí, con un maniquí más excelso y más capaz, pero más intensivo de cuenta).
AI Scaling alcanza sus límites
Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:
- Convertir la energía en una preeminencia estratégica
- Construcción de inferencia efectivo para ganancias reales de rendimiento
- Desbloquear ROI competitivo con sistemas de IA sostenibles
Asegure su puesto para mantenerse a la vanguardia: https://bit.ly/4mwgngo
El maniquí maneja múltiples idiomas, incluidos inglés, tudesco, castellano, francés, italiano, japonés y en descripciones extendidas, coreanos, portugueses, rusos y chinos. Es adecuado para los dos instrucción subsiguiente y coexistentes de código.
Nemotron-nano-9b-v2 y es conjuntos de datos previos al entrenamiento Acondicionado en este momento en abrazar la cara y a través del catálogo de modelos de la compañía.
Una fusión de arquitecturas de transformador y mamba
Se zócalo en Nemotron-hun conjunto de modelos híbridos de transformador mamba que forman la almohadilla para las últimas ofertas de la compañía.
Si admisiblemente los LLM más populares son modelos puros de “transformador”, que dependen completamente de las capas de atención, pueden volverse costosos en la memoria y calcular a medida que crecen las longitudes de secuencia.
En su puesto, los modelos Nemotron-H y otros que usan el Construcción de Mamba desarrollada por investigadores en la Universidad Carnegie Mellon y Princeton, asimismo Teje en modelos de espacio de estado selectivo (o SSMS), que pueden manejar secuencias de información muy largas adentro y fuera manteniendo el estado.
Estas capas se escalan linealmente con la distancia de la secuencia y pueden procesar contextos mucho más tiempo que la autoatencia standard sin la misma memoria y calcular la sobrecarga.
A HYbrid Mamba-Transformer reduce esos costos al sustituir la veterano parte de la atención con capas espaciales de estado derecho, logrando un rendimiento de hasta 2–3 × más detención en contextos largos con precisión comparable.
Otros laboratorios de IA más allá de Nvidia como AI2 asimismo han animado modelos basados en la edificio Mamba.
Codearse/de razonamiento usando el lengua
Nemotron-Nano-9B-V2 se posiciona como un maniquí unificado de chat y razonamiento de solo texto entrenado desde cero.
El El sistema predeterminado es difundir una traza de razonamiento antaño de proporcionar una respuesta final, aunque los usuarios pueden tratarse este comportamiento a través de tokens de control simples como /think o /no_think.
El maniquí asimismo yontroduce la gobierno de “presupuesto de pensamiento” en tiempo de ejecucióncual permite a los desarrolladores deslindar el número de tokens dedicado al razonamiento interno antaño de que el maniquí complete una respuesta.
Este mecanismo tiene como objetivo equilibrar la precisión con la latencia, particularmente en aplicaciones como atención al cliente o agentes autónomos.
Los puntos de relato cuentan una historia prometedora
Los resultados de la evaluación destacan la precisión competitiva contra otros modelos abiertos a pequeña escalera. Probado en modo “razonamiento sobre” usando la suite Nemo-Skills, Nemotron-Nano-9B-V2 alcanza el 72.1 por ciento en AIME25, 97.8 por ciento en Math500, 64.0 por ciento en GPQAy 71.1 por ciento en LivecodeBench.
Todavía se informan puntajes en la instrucción subsiguiente y los puntos de relato de contexto espléndido: 90.3 por ciento en Ifeval, 78.9 por ciento en la prueba de Regla 128Ky ganancias más pequeñas pero medibles en BFCL V3 y el punto de relato HLE.

En todos los ámbitos, Nano-9B-V2 muestra una veterano precisión que QWEN3-8B, Un punto de comparación popular.

NVIDIA ilustra estos resultados con curvas de precisión frente a presupuesto que muestran cómo aumenta el rendimiento a medida que aumenta la asignación de token para el razonamiento. La compañía sugiere que un control presupuestario cuidadoso puede ayudar a los desarrolladores a optimizar la calidad y la latencia en los casos de uso de producción.
Entrenado en conjuntos de datos sintéticos
Tanto el maniquí Nano como la tribu Nemotron-H se basan en una mezcla de datos curados, de origen web y de entrenamiento sintético.
Los corpus incluyen texto universal, código, matemáticas, ciencias, documentos legales y financieros, así como conjuntos de datos de preguntas de respuesta al estilo de línea.
Nvidia confirma el uso de trazas de razonamiento sintéticas generadas por otros modelos grandes para robustecer el rendimiento en puntos de relato complejos.
Licencias y uso comercial
El maniquí Nano-9B-V2 se alabarda bajo el Acuerdo de Deshonestidad Maniquí Open NVIDIAÚltima puesta al día en junio de 2025.
La atrevimiento está diseñada para ser permisiva y amable para la empresa. Nvidia establece explícitamente que los modelos son comercialmente aprovechable fuera de la cajay que Los desarrolladores son libres de crear y distribuir modelos derivados.
Es importante destacar que NVIDIA no reclama la propiedad de ningún resultado generado por el maniquí, dejando la responsabilidad y los derechos con el desarrollador u estructura que lo usa.
Para un desarrollador empresarial, esto significa que el maniquí se puede poner en producción inmediatamente sin negociar una atrevimiento comercial separada o acreditar tarifas vinculadas a los umbrales de uso, niveles de ingresos o recuentos de usuarios. No hay cláusulas que requieran una atrevimiento pagada una vez que una empresa alcanza una determinada escalera, a diferencia de algunas licencias abiertas escalonadas utilizadas por otros proveedores.
Dicho esto, el acuerdo incluye varias condiciones que las empresas deben observar:
- Barandas: Los usuarios no pueden prescindir o deshabilitar los mecanismos de seguridad incorporados (denominados “barandillas”) sin implementar reemplazos comparables adecuados para su implementación.
- Redistribución: Cualquier redistribución del maniquí o derivados debe incluir el texto y la atribución de la atrevimiento de maniquí Open NVIDIA (“con atrevimiento de NVIDIA Corporation bajo la atrevimiento de maniquí Open NVIDIA”).
- Cumplimiento: Los usuarios deben cumplir con las regulaciones y restricciones comerciales (por ejemplo, leyes de exportación de EE. UU.).
- Términos de IA confiables: El uso debe alinearse con las pautas de IA de Nvidia Confiantyworthy, que cubren el despliegue responsable y las consideraciones éticas.
- Cláusula de disputa: Si un usufructuario inicia los derechos de autor o el disputa de patentes contra otra entidad alegando infracción por parte del maniquí, la atrevimiento termina automáticamente.
Estas condiciones se centran en el uso admitido y responsable en puesto de la escalera comercial. Las empresas no necesitan inquirir permiso adicional o acreditar regalías a NVIDIA simplemente para construir productos, monetizarlos o subir su almohadilla de usuarios. En cambio, deben cerciorarse de que las prácticas de implementación respeten la seguridad, la atribución y las obligaciones de cumplimiento.
Posicionamiento en el mercado
Con Nemotron-Nano-9B-V2, NVIDIA está dirigido a desarrolladores que necesitan un inmovilidad de capacidad de razonamiento y eficiencia de implementación a escalas más pequeñas.
El control de presupuesto de tiempo de ejecución y las características de los toggles de razonamiento están destinadas a aplaudir a los constructores de sistemas más flexibilidad en la gobierno de la precisión frente a la velocidad de respuesta.
Su exención en la cara abrazada y el catálogo maniquí de Nvidia indica que son destinado a ser ampliamente accesible para la experimentación e integración.
El emanación de Nvidia de Nemotron-Nano-9B-V2 muestra un enfoque continuo en la eficiencia y el razonamiento controlable en los modelos de idiomas.
Combinando arquitecturas híbridas con nuevas técnicas de compresión y entrenamientola compañía ofrece a los desarrolladores herramientas que buscan persistir la precisión al tiempo que reducen los costos y la latencia.






