
Nvidia lanzó la nueva traducción de sus modelos fronterizos, Nemotron 3, apoyándose en una casa de maniquí que, según la empresa más valiosa del mundo, ofrece más precisión y confiabilidad para los agentes.
Nemotron 3 estará apto en tres tamaños: Nemotron 3 Nano con parámetros 30B, principalmente para tareas específicas y en gran medida eficientes; Nemotron 3 Super, que es un maniquí de parámetros de 100B para aplicaciones multiagente y con razonamiento de suscripción precisión y Nemotron 3 Exaltado, con su gran motor de razonamiento y cerca de de 500B de parámetros para aplicaciones más complejas.
Para construir los modelos Nemotron 3, Nvidia dijo que se apoyó en una casa híbrida de mezcla de expertos (MoE) para mejorar la escalabilidad y la eficiencia. Al utilizar esta casa, Nvidia dijo en un comunicado de prensa que sus nuevos modelos incluso ofrecen a las empresas más tolerancia y rendimiento al construir sistemas autónomos multiagente.
Kari Briski, vicepresidente de software de IA generativa de Nvidia, dijo a los periodistas en una sesión informativa que la compañía quería demostrar su compromiso de estudiar y mejorar a partir de iteraciones anteriores de sus modelos.
“Creemos que estamos en una posición única para servir a una amplia tono de desarrolladores que desean total flexibilidad para personalizar modelos para construir IA especializada combinando esa nueva mezcla híbrida de nuestra combinación de casa de expertos con una largura de contexto de 1 millón de tokens”, dijo Briski.
Nvidia dijo que los primeros en adoptar los modelos Nemotron 3 incluyen Accenture, CrowdStrike, Cursor, Deloitte, EY, Oracle Cloud Infrastructure, Palantir, Perplexity, ServiceNow, Siemens y Teleobjetivo.
Arquitecturas innovadoras
Nvidia ha estado utilizando la casa híbrida de mezcla de expertos Mamba-Transformer para muchos de sus modelos. incluido Nemotron-Nano-9B-v2.
La casa se pedestal en investigaciones de la Universidad Carnegie Mellon y Princeton, que entrelazan modelos selectivos de espacio de estados para manejar grandes cantidades de información mientras se mantienen los estados. Puede ceñir los costos de computación incluso en contextos prolongados.
Nvidia señaló que su diseño “alcanza un rendimiento de tokens hasta 4 veces decano” en comparación con Nemotron 2 Nano y puede ceñir significativamente los costos de inferencia al ceñir la gestación de tokens de razonamiento hasta en un 60%.
“Efectivamente necesitamos poder aumentar esa eficiencia y ceñir el costo por token. Y se puede hacerlo de varias maneras, pero en verdad lo estamos haciendo a través de las innovaciones de esa casa maniquí”, dijo Briski. “La casa híbrida del transformador Mamba se ejecuta varias veces más rápido con menos memoria, porque evita estos enormes mapas de atención y cachés de títulos secreto para cada token”.
Nvidia incluso introdujo una innovación adicional para los modelos Nemotron 3 Super y Exaltado. Para estos, Briski dijo que Nvidia implementó “un avance llamado MoE secreto”.
“Es asegurar, todos estos expertos que están en su maniquí comparten un núcleo popular y mantienen solo una pequeña parte en privado. Es como si los chefs compartieran una gran cocina, pero necesitan tener su propio especiero”, agregó Briski.
Nvidia no es la única empresa que emplea este tipo de casa para construir modelos. AI21 Labs lo utiliza para sus modelos Sostén, más recientemente en su maniquí Sostén Reasoning 3B.
Los modelos Nemotron 3 se beneficiaron del estudios por refuerzo extendido. Los modelos más grandes, Super y Exaltado, utilizaron el formato de entrenamiento NVFP4 de 4 bits de la compañía, que les permite entrenar en la infraestructura existente sin comprometer la precisión.
Las pruebas de narración del Observación Sintético colocaron a los modelos Nemotron en un lado destacado entre los modelos de tamaño similar.
Nuevos entornos para que los modelos ‘practiquen’
Como parte del impulso de Nemotron 3, Nvidia incluso brindará a los usuarios golpe a su investigación mediante la publicación de sus artículos y muestras, ofreciendo conjuntos de datos abiertos donde las personas pueden usar y ver tokens previos al entrenamiento y muestras posteriores al entrenamiento y, lo más importante, un nuevo NeMo Gym donde los clientes pueden dejar que sus modelos y agentes “entrenen”.
NeMo Gym es un laboratorio de estudios por refuerzo donde los usuarios pueden dejar que sus modelos se ejecuten en entornos simulados para probar su rendimiento posterior al entrenamiento.
AWS anunció una útil similar a través de su Plataforma Nova Forgedirigido a empresas que desean probar sus modelos más pequeños o destilados recién creados.
Briski dijo que las muestras de datos posteriores al entrenamiento que Nvidia planea divulgar “son órdenes de magnitud mayores que cualquier conjunto de datos posteriores al entrenamiento apto y incluso son muy permisivos y abiertos”.
Nvidia señaló a los desarrolladores que buscan modelos abiertos en gran medida inteligentes y de stop rendimiento, para que puedan comprender mejor cómo guiarlos si es necesario, como pulvínulo para divulgar más información sobre cómo entrena sus modelos.
“Los desarrolladores de modelos hoy en día se enfrentan a esta difícil trifecta. Necesitan encontrar modelos que sean exaltado abiertos, que sean extremadamente inteligentes y en gran medida eficientes”, afirmó. “La mayoría de los modelos abiertos obligan a los desarrolladores a realizar dolorosas compensaciones entre eficiencias como los costos de los tokens, la latencia y el rendimiento”.
Dijo que los desarrolladores quieren aprender cómo se entrenó un maniquí, de dónde provienen los datos de entrenamiento y cómo pueden evaluarlos.





