
El acuerdo de inmoralidad estratégica de Nvidia por 20 mil millones de dólares con Groq representa uno de los primeros movimientos claros en una lucha de cuatro frentes por la futura pila de IA. En 2026 es cuando esa lucha se vuelve obvia para los creadores de empresas.
Para los tomadores de decisiones técnicas con los que hablamos todos los días (las personas que crean las aplicaciones de IA y los canales de datos que las impulsan), este acuerdo es una señal de que la era de la GPU única para todos como respuesta predeterminada de inferencia de IA está terminando.
Estamos entrando en la era de la cimentación de inferencia desagregadadonde el propio silicio se está dividiendo en dos tipos diferentes para adaptarse a un mundo que exige tanto un contexto masivo como un razonamiento instantáneo.
Por qué la inferencia está partiendo la cimentación de la GPU en dos
Para entender por qué el CEO de Nvidia, Jensen Huang, perdió un tercio de su informó una pila de efectivo de 60 mil millones de dólares En un acuerdo de inmoralidad, hay que observar las amenazas existenciales que convergen en los informes de su empresa. 92% de cuota de mercado.
La industria alcanzó un punto de inflexión a finales de 2025: por primera vez, la inferencia (la escalón en la que efectivamente se ejecutan los modelos entrenados) superó la capacitación en términos de ingresos totales del centro de datossegún Deloitte. en este nuevo "libramiento de inferencia," las métricas han cambiado. Si correctamente la precisión sigue siendo la saco, ahora se libra la batalla por la latencia y la capacidad de suministrar "estado" en agentes autónomos.
Hay cuatro frentes en esa batalla, y cada frente apunta a la misma conclusión: las cargas de trabajo de inferencia se están fragmentando más rápido de lo que las GPU pueden divulgar.
1. Dividir la GPU en dos: precarga frente a decodificación
Gavin Baker, un inversor en Groq (y por lo tanto parcial, pero incluso inusualmente fluido en la cimentación), resumido El principal impulsor del acuerdo con Groq es claro: “La inferencia se está desagregando en precompletar y decodificar”.
Precarga y descodificar son dos fases diferenciadas:
-
La escalón de precarga: Piense en esto como el beneficiario "inmediato" tablas. El maniquí debe ingerir cantidades masivas de datos (ya sea una saco de código de 100.000 líneas o una hora de vídeo) y calcular una comprensión contextual. Esto es "vinculado a la computación," requiriendo una multiplicación masiva de matrices en la que las GPU de Nvidia son históricamente excelentes.
-
La escalón de concepción (decodificación): Este es el token auténtico "concepción.” Una vez que se ingiere el mensaje, el maniquí genera una palabra (o token) a la vez, y devuelve cada una al sistema para predecir la posterior. esto es "conclusión de encantado de manada de memoria." Si los datos no pueden acaecer de la memoria al procesador lo suficientemente rápido, el maniquí tartamudea, sin importar cuán potente sea la GPU. (Aquí es donde Nvidia era débil y donde brilla la mecanismo de procesamiento de habla particular (LPU) de Groq y su memoria SRAM relacionada. Hablaremos más de eso en un momento).
Nvidia tiene anunció una próxima Ribera Rubin comunidad de chips que está diseñando una cimentación específica para manejar esta división. El Rubin CPX componente de esta comunidad es el designado "prellenar" heroína de batalla, optimizado para ventanas de contexto masivas de 1 millón de tokens o más. Para manejar esta escalera de guisa asequible, se aleja del compra exorbitante de memoria de parada encantado de manada (HBM) – La memoria tipificado de oro flagrante de Nvidia que se encuentra acordado al flanco de la GPU y que en su motivo utiliza 128 GB de un nuevo tipo de memoria. GDDR7. Si correctamente HBM proporciona una velocidad extrema (aunque no tan rápida como la memoria estática de paso fortuito (SRAM) de Groq), su proposición de GPU es limitada y su costo es una barrera para la escalera; GDDR7 proporciona una forma más rentable de incorporar conjuntos de datos masivos.
Mientras tanto, el "Con sabor a groq" El silicio, que Nvidia está integrando en su hoja de ruta de inferencia, servirá como sistema de suscripción velocidad. "descodificar" motor. Se alcahuetería de equilibrar una amenaza de arquitecturas alternativas como las TPU de Google y suministrar el dominio de CUDA, El ecosistema de software de Nvidia que ha servido como su foso principal durante más de una lapso.
Todo esto fue suficiente para que Baker, el inversor de Groq, predijera que la atrevimiento de Nvidia de obtener la inmoralidad de Groq provocará la anulación de todos los demás chips de IA especializados, es asegurar, fuera del TPU de Google, el AI5 de Tesla y el Trainium de AWS.
2. El poder diferenciado de SRAM
En el corazón de la tecnología de Groq se encuentra SRAM. A diferencia de la DRAM que se encuentra en su PC o la HBM en una GPU Nvidia H100, la SRAM está grabada directamente en la método del procesador.
Michael Stewart, socio director del fondo de peligro de Microsoft, M12, describe la SRAM como la mejor para mover datos en distancias cortas con un pequeño de energía. "La energía para moverse un poco en SRAM es como 0,1 picojulios o menos," Dijo Stewart. "Moverlo entre la DRAM y el procesador es entre 20 y 100 veces peor."
En el mundo de 2026, donde los agentes deben razonar en tiempo auténtico, SRAM actúa como lo zaguero "bloc de notas": un espacio de trabajo de suscripción velocidad donde el maniquí puede manipular operaciones simbólicas y procesos de razonamiento complejos sin la "ciclos desperdiciados" de transferencia de memoria externa.
Sin incautación, la SRAM tiene un gran inconveniente: es físicamente voluminosa y costosa de fraguar, lo que significa que su capacidad es limitada en comparación con la DRAM. Aquí es donde Val Bercovici, director de IA de Weka, otra empresa que ofrece memoria para GPU, ve la segmentación del mercado.
Las cargas de trabajo de IA compatibles con Groq, donde SRAM tiene la delantera, son aquellas que utilizan modelos pequeños de 8 mil millones de parámetros o menos, dijo Bercovici. Sin incautación, este no es un mercado pequeño. “Es simplemente un segmento de mercado superhombre que Nvidia no atendió, que era la inferencia de borde, pérdida latencia, robótica, voz, dispositivos IoT: cosas que queremos que se ejecuten en nuestros teléfonos sin la nubarrón por conveniencia, rendimiento o privacidad." dijo.
Este 8B "punto dulce" es significativo porque en 2025 se produjo una arrebato en maniquí de destilacióndonde muchas empresas están reduciendo modelos masivos a versiones más pequeñas enormemente eficientes. Si correctamente SRAM no es práctico para el billón de parámetros "frontera" modelos, es consumado para estos modelos más pequeños y de suscripción velocidad.
3. La amenaza antrópica: el auge de la ‘pila portátil’
Quizás el impulsor menos apreciado de este acuerdo es el éxito de Anthropic al hacer que su pila sea portátil entre aceleradores.
la empresa tiene Fue pionero en un enfoque de ingeniería portátil. para entrenamiento e inferencia, básicamente una capa de software que permite que sus modelos Claude se ejecuten en múltiples familias de aceleradores de IA, incluidas las GPU de Nvidia y las TPU Ironwood de Google. Hasta hace poco, el dominio de Nvidia estaba protegido porque ejecutar modelos de parada rendimiento fuera de la pila de Nvidia era una pesadilla técnica. “Es antrópico”, me dijo Bercovici de Weka. “El hecho de que Anthropic fuera capaz de… crear una pila de software que pudiera funcionar tanto en TPU como en GPU, no creo que se esté apreciando lo suficiente en el mercado”.
(Divulgación: Weka ha sido patrocinador de los eventos VentureBeat).
Anthropic recientemente se comprometió a alcanzar a hasta 1 millón de TPU de Google, lo que representa más de un gigavatio de capacidad informática. Este enfoque multiplataforma garantiza que la empresa no sea rehén de las limitaciones de precios o suministro de Nvidia. Entonces, para Nvidia, el acuerdo con Groq es igualmente un movimiento defensivo. Al integrar la IP de inferencia ultrarrápida de Groq, Nvidia se asegura de que las cargas de trabajo más sensibles al rendimiento, como aquellas que ejecutan modelos pequeños o como parte de agentes en tiempo auténtico, puedan acomodarse adentro del ecosistema CUDA de Nvidia, incluso cuando los competidores intentan saltar a los TPU Ironwood de Google. CUDA es el software particular que Nvidia proporciona a los desarrolladores para integrar GPU.
4. La extirpación agente por la estadidad: Manus y el KV Cache
El momento de este acuerdo con Groq coincide con la adquisición del agente pionero por parte de Meta. manus Hace al punto que dos días. La importancia de Manus fue en parte su obsesión por estadidad.
Si un agente no puede rememorar lo que hizo hace 10 pasos, es inútil para tareas del mundo auténtico como investigación de mercado o avance de software. Personalidad KV (personalidad de títulos secreto) es el "memoria a corto plazo" que un LLM construye durante la escalón previa al llenado.
manus reportado que para los agentes de fracción de producción, la proporción de tokens de entrada a tokens de salida puede alcanzar 100:1. Esto significa que por cada palabra que dice un agente, es "pensamiento" y "recordando" otros 100. En este entorno, la tasa de aciertos de KV Cache es la métrica más importante para un agente de producción, afirmó Manus. Si ese personalidad es "desalojado" de memoria, el agente pierde el hilo de sus pensamientos y el maniquí debe derrochar una gran cantidad de energía para retornar a calcular el mensaje.
La SRAM de Groq puede ser una "bloc de notas" para estos agentes (aunque, nuevamente, principalmente para modelos más pequeños) porque permite la recuperación casi instantánea de ese estado. Combinado con Nvidia Dinamo estructura y KVBM, Nvidia está construyendo una "sistema activo de inferencia" que permite a los servidores de inferencia clasificar este estado en niveles en SRAM, DRAM, HBM y otras ofertas basadas en flash como la de Weka de Bercovici.
Thomas Jorgensen, director senior de Facultad Tecnológica de Supermicro, que se especializa en la creación de clústeres de GPU para grandes empresas, me dijo en septiembre que la computación ya no es el principal cuello de botella para los clústeres avanzados. Respaldar datos a las GPU fue el cuello de botella, y romper ese cuello de botella requiere memoria.
"Todo el cluster es ahora la computadora," dijo Jorgensen. "La creación de redes se convierte en una parte interna de la bestia… proveer a la bestia con datos se está volviendo más difícil porque el encantado de manada entre las GPU está creciendo más rápido que cualquier otra cosa."
Es por eso que Nvidia está avanzando cerca de la inferencia desagregada. Al separar las cargas de trabajo, las aplicaciones empresariales pueden utilizar niveles de almacenamiento especializados para proveer datos con un rendimiento de clase de memoria, mientras que los especializados "Groq-dentro" El silicio maneja la concepción de tokens de suscripción velocidad.
El veredicto para 2026
Estamos entrando en una era de especialización extrema. Durante décadas, los operadores tradicionales podían superar lanzando una cimentación dominante de uso universal, y su punto ciego era a menudo lo que ignoraban en los márgenes. El amplio incuria de Intel cerca de el bajo consumo de energía es el ejemplo clásico, me dijo Michael Stewart, socio administrador del fondo de peligro M12 de Microsoft. Nvidia está indicando que no repetirá ese error. “Si incluso el líder, incluso el valiente de la follaje, adquiere talento, adquiere tecnología, es una señal de que todo el mercado simplemente quiere más opciones”, dijo Stewart.
Para los líderes técnicos, el mensaje es deje de diseñar su pila como si fuera un esqueleto, un acelerador, una respuesta. En 2026, la delantera recaerá en los equipos que etiqueten las cargas de trabajo explícitamente y las dirijan al nivel correcto:
-
mucha precarga vs. mucha decodificación
-
contexto amplio frente a contexto corto
-
interactivo vs. por lotes
-
maniquí pequeño frente a maniquí noble
-
Restricciones de borde frente a supuestos del centro de datos
Su cimentación seguirá esas etiquetas. En 2026, la “organización GPU” deja de ser una atrevimiento de adquisición y pasa a ser una atrevimiento de enrutamiento. Los ganadores no preguntarán qué chip compraron, sino dónde se ejecutó cada token y por qué.






