
El director ejecutor de Nvidia, Jensen Huang, dijo el año pasado que ahora estamos entrando en la era de la IA física. Si proporcionadamente la compañía continúa ofreciendo LLM para casos de uso de software, Nvidia se está posicionando cada vez más como proveedor de modelos de IA para sistemas totalmente impulsados por IA, incluida la IA agente en el mundo físico.
En CES 2026, Nvidia anunció una serie de nuevos modelos diseñados para transigir a los agentes de IA más allá de las interfaces de chat y en torno a entornos físicos.
Nvidia lanzazo Cosmos Razón 2la última interpretación de su maniquí visión-lenguaje diseñado para el razonamiento corporal. Cosmos Razón 1, agresivo el año pasadointrodujo una ontología bidimensional para el razonamiento incorporado y actualmente lidera el razonamiento físico de Hugging Face para la clasificación de vídeos.
Cosmos Reason 2 se pedestal en la misma ontología al tiempo que brinda a las empresas más flexibilidad para personalizar las aplicaciones y permite a los agentes físicos planificar sus próximas acciones, de modo similar a cómo los agentes basados en software razonan a través de flujos de trabajo digitales.
Nvidia todavía lanzó una nueva interpretación de Cosmos Transfer, un maniquí que permite a los desarrolladores gestar simulaciones de entrenamiento para robots.
Otros modelos de idioma visual, como PaliGemma de Google y Pixtral Large de Mistral, pueden procesar entradas visuales, pero no todos los VLM disponibles comercialmente admiten el razonamiento.
“La robótica está en un punto de inflexión. Estamos pasando de robots especializados limitados a tareas únicas a sistemas especializados generalistas”, dijo Kari Briski, vicepresidente de software de IA generativa de Nvidia, en una sesión informativa con periodistas. Se refería a robots que combinan un amplio conocimiento fundamental con profundas habilidades para tareas específicas. “Estos nuevos robots combinan un amplio conocimiento fundamental con una profunda competencia y tareas complejas”.
Añadió que Cosmos Reason 2 “progreso las capacidades de razonamiento que los robots necesitan para navegar en el impredecible mundo físico”.
Pasando a agentes físicos
Briski señaló que la hoja de ruta de Nvidia sigue “el mismo patrón de activos en todos nuestros modelos abiertos”.
“Al crear agentes de IA especializados, una fuerza gremial digital o la encarnado física de la IA en robots y vehículos autónomos, se necesita poco más que el maniquí”, dijo Briski. “En primer circunscripción, la IA necesita fortuna informáticos para entrenarse y fingir el mundo que la rodea. Los datos son el combustible para que la IA aprenda y mejore, y contribuimos a la colección más espacioso del mundo de conjuntos de datos abiertos y diversos, yendo más allá de simplemente destapar los pesos de los modelos. Las bibliotecas abiertas y los scripts de capacitación brindan a los desarrolladores las herramientas para crear IA específicamente para sus aplicaciones, y publicamos planos y ejemplos para ayudar a implementar la IA como sistemas de modelos”.
La compañía ahora tiene modelos abiertos específicamente para IA física en Cosmos, robótica, con el maniquí Gr00t de visión, idioma y energía (VLA) de razonamiento libre y sus modelos Nemotron para IA agente.
Nvidia defiende que los modelos abiertos en diferentes ramas de la IA forman un ecosistema empresarial compartido que alimenta datos, capacitación y razonamiento a los agentes tanto en el mundo digital como en el físico.
Adiciones a la tribu Nemotron
Briski dijo que Nvidia planea continuar expandiendo sus modelos abiertos, incluida su tribu Nemotron, más allá del razonamiento para incluir un nuevo RAG y un maniquí integrado para que la información esté más adecuado para los agentes. La compañía lanzó Nemotron 3, la última interpretación de sus modelos de razonamiento agente, en diciembre.
Nvidia anunció tres nuevas incorporaciones a la tribu Nemotron: Nemotron Speech, Nemotron RAG y Nemotron Safety.
En una publicación de blog, Nvidia dijo que Nemotron Speech ofrece “examen de voz de herido latencia en tiempo verdadero para subtítulos en vivo y aplicaciones de inteligencia químico de voz” y es 10 veces más rápido que otros modelos de voz.
Nemotron RAG se compone técnicamente de dos modelos: un maniquí de incrustación y un maniquí de reordenación, los cuales pueden comprender imágenes para proporcionar más información multimodal que los agentes de datos aprovecharán.
“Nemotron RAG está por encima de lo que llamamos MMTab, o Massive Multilingual Text Embedding Benchmark, con un válido rendimiento multilingüe mientras utiliza menos memoria de potencia de cálculo, por lo que son una buena opción para sistemas que deben manejar muchas solicitudes muy rápidamente y con poca dilación”, dijo Briski.
Nemotron Safety detecta datos confidenciales para que los agentes de IA no revelen accidentalmente datos de identificación personal.





