Cómo las TPU de Google están remodelando la posesiones de la IA a gran escalera

Cómo las TPU de Google están remodelando la posesiones de la IA a gran escalera

Durante más de una plazo, las GPU de Nvidia han sustentado casi todos los avances importantes en la IA moderna. Esa posición ahora está siendo cuestionada.

Los modelos Frontier como Gemini 3 de Google y Claude 4.5 Opus de Anthropic no fueron entrenados en hardware Nvidia, sino en las últimas Unidades de Procesamiento Tensor de Google, la TPUv7 basada en Ironwood. Esto indica que ya ha llegado una alternativa viable a la pila de IA centrada en GPU, una con implicaciones reales para la posesiones y la casa del entrenamiento a escalera de frontera.

Nvidia CUDA (Compute Unified Device Architecture), la plataforma que proporciona llegada a la casa paralela masiva de la GPU, y las herramientas que la rodean han creado lo que muchos han denominado el "foso CUDA"; Una vez que un equipo ha creado canales en CUDA, cambiar a otra plataforma es prohibitivamente costoso adecuado a las dependencias de la pila de software de Nvidia. Esto, combinado con la preeminencia de ser el primero en hacer de Nvidia, ayudó a la empresa a obtener una asombroso 75% beneficio bruto.

A diferencia de las GPU, las TPU se diseñaron desde el primer día como silicio diseñado específicamente para el enseñanza mecánico. Con cada reproducción, Google ha progresista más en dirección a la apresuramiento de la IA a gran escalera, pero ahora, como el hardware detrás de dos de los modelos de IA más capaces en absoluto entrenados, TPUv7 señala una organización más amplia para desafiar el dominio de Nvidia.

Tanto las GPU como las TPU aceleran el enseñanza mecánico, pero reflejan diferentes filosofías de diseño: las GPU son procesadores paralelos de uso militar, mientras que las TPU son sistemas especialmente diseñados y optimizados casi exclusivamente para la multiplicación de matrices a gran escalera. Con TPUv7, Google ha impulsado aún más esa especialización al integrar estrechamente interconexiones de ingreso velocidad directamente en el chip, lo que permite que los módulos de TPU escale como una sola supercomputadora y reduce el costo y las penalizaciones de latencia que normalmente vienen con los clústeres basados ​​en GPU.

Los TPU son "diseñado como un “sistema” completo en espacio de solo un chip," Val Bercovici, director de IA de WEKAdijo a VentureBeat.

El locución comercial de Google desde lo interno a lo industrial

Históricamente, Google restringía el llegada a las TPU exclusivamente a través de locación de nubes en la plataforma de la abundancia de Google. En los últimos meses, Google ha comenzado a ofrecer el hardware directamente a clientes externos, desagregando efectivamente el chip del servicio en la abundancia. Los clientes pueden nominar entre tratar la informática como un pago operante mediante el locación a través de la abundancia, o un pago de caudal (comprar hardware directamente), eliminando un importante punto de fricción para los grandes laboratorios de IA que prefieren poseer su propio hardware y evitando efectivamente el "locación de abundancia" prima para el hardware almohadilla.

La habitación central del cambio de organización de Google es un acuerdo histórico con Anthropic, donde el creador de Claude 4.5 Opus recibirá llegada a hasta 1 millón de chips TPUv7, más de un gigavatio de capacidad informática. A través de Broadcom, socio de diseño físico de Google desde hace mucho tiempo, se venden aproximadamente 400.000 chips directamente a Anthropic. Los 600.000 chips restantes se alquilan mediante contratos tradicionales de Google Cloud. El compromiso de Anthropic añade miles de millones de dólares a los resultados de Google y bloquea a uno de los competidores secreto de OpenAI en el ecosistema de Google.

Erosionando el "foso CUDA"

Durante abriles, las GPU de Nvidia han sido el claro líder del mercado en infraestructura de IA. Por otra parte de su potente hardware, el ecosistema CUDA de Nvidia presenta una amplia biblioteca de kernels y marcos optimizados. Combinado con una amplia amistad con los desarrolladores y una enorme almohadilla instalada, las empresas gradualmente quedaron atrapadas en el "foso CUDA," una barrera estructural que hacía que fuera poco práctico renunciar una infraestructura basada en GPU.

Uno de los obstáculos secreto que impiden una acogida más amplia de TPU ha sido la fricción del ecosistema. En el pasado, las TPU funcionaban mejor con JAX, la biblioteca de computación numérica de Google diseñada para la investigación de IA/ML. Sin confiscación, el avance militar de la IA se pedestal principalmente en PyTorch, un situación de enseñanza mecánico de código destapado que se puede ajustar para CUDA.

Google ahora está abordando directamente esta brecha. TPUv7 admite la integración nativa de PyTorch, que incluye ejecución ansiosasoporte completo para API distribuidas, torch.compile y soporte de kernel de TPU personalizado bajo la dependencia de herramientas de PyTorch. El objetivo es que PyTorch se ejecute tan fácilmente en TPU como en GPU Nvidia.

Google asimismo está contribuyendo en gran medida a vllm y SGLangdos marcos de inferencia populares de código destapado. Al optimizar estas herramientas ampliamente utilizadas para TPU, Google garantiza que los desarrolladores puedan cambiar de hardware sin tener que reescribir todo su código almohadilla.

Ventajas y desventajas de las TPU frente a las GPU

Para las empresas que comparan TPU y GPU para cargas de trabajo de enseñanza mecánico a gran escalera, los beneficios se centran principalmente en el costo, el rendimiento y la escalabilidad. SemiAnalysis publicó recientemente un chapuzón profundo tantear las ventajas y desventajas de las dos tecnologías, midiendo la rentabilidad y el rendimiento técnico.

Gracias a su casa especializada y decano eficiencia energética, TPUv7 ofrece un rendimiento por dólar significativamente mejor para capacitación a gran escalera e inferencia de gran bombeo. Esto permite a las empresas resumir los costos operativos relacionados con la energía, la refrigeración y los bienes del centro de datos. SemiAnalysis estima que, para los sistemas internos de Google, el costo total de propiedad (TCO) de un servidor basado en Ironwood es aproximadamente un 44% último que el TCO de un servidor Nvidia GB200 Blackwell equivalente. Incluso a posteriori de tener en cuenta los márgenes de beneficio de Google y Broadcom, los clientes externos como Anthropic están viendo una reducción de costes de ~30 % en comparación con Nvidia. "Cuando el costo es primordial, las TPU tienen sentido para proyectos de IA a escalera masiva. Con las TPU, los hiperescaladores y los laboratorios de inteligencia fabricado pueden obtener reducciones del TCO del 30 al 50 %, lo que podría traducirse en miles de millones en ahorros." dijo Bercovici.

Esta influencia económica ya está remodelando el mercado. Sólo la existencia de una alternativa viable permitió a OpenAI negociar un ~30% de descuento en su propio hardware Nvidia. OpenAI es uno de los mayores compradores de GPU de Nvidia; sin confiscación, a principios de este año, la empresa Se agregaron Google TPU a través de Google Cloud para soportar sus crecientes requisitos informáticos. Según se informa, Meta asimismo se encuentra en conversaciones avanzadas para apropiarse TPU de Google para sus centros de datos.

En esta etapa, podría parecer que Ironwood es la opción ideal para la casa empresarial, pero existen varias compensaciones. Si acertadamente las TPU se destacan en cargas de trabajo específicas de enseñanza profundo, son mucho menos flexibles que las GPU, que pueden ejecutar una amplia variedad de algoritmos, incluidas tareas que no son de IA. Si mañana se inventa una nueva técnica de IA, una GPU la ejecutará inmediatamente. Esto hace que las GPU sean más adecuadas para organizaciones que ejecutan una amplia serie de cargas de trabajo computacionales más allá del enseñanza profundo tipificado.

La migración desde un entorno centrado en GPU asimismo puede ser costosa y sobrellevar mucho tiempo, especialmente para equipos con canalizaciones basadas en CUDA existentes, kernels de GPU personalizados o que aprovechan marcos que aún no están optimizados para TPU.

Bercovici recomienda que las empresas "opte por GPU cuando necesiten moverse rápido y el tiempo de comercialización sea importante. Las GPU aprovechan la infraestructura tipificado y el decano ecosistema de desarrolladores, manejan cargas de trabajo dinámicas y complejas para las que las TPU no están optimizadas y se implementan en centros de datos locales existentes basados ​​en estándares sin requerir energía personalizada ni reconstrucciones de redes."

Por otra parte, la omnipresencia de las GPU significa que hay más talento de ingeniería arreglado. Los TPU exigen un conjunto de habilidades poco global. "Usar el poder de las TPU requiere que una estructura tenga profundidad en ingeniería, lo que significa poder enganchar y retener el raro talento de ingeniería que puede escribir núcleos personalizados y optimizar compiladores." dijo Bercovici.

En la actos, las ventajas de Ironwood se pueden servirse principalmente para empresas con cargas de trabajo grandes y con mucho tensor. Las organizaciones que requieren una decano flexibilidad de hardware, estrategias de abundancia híbrida o versatilidad estilo HPC pueden encontrar que las GPU son la mejor opción. En muchos casos, un enfoque híbrido que combine uno y otro puede ofrecer el mejor nivelación entre especialización y flexibilidad.

El futuro de la casa de IA

La competencia por el dominio del hardware de IA se está intensificando, pero es demasiado pronto para predecir un campeón, o incluso si habrá un campeón. Con Nvidia y Google innovando a un ritmo tan rápido y las empresas como amazon Uniéndose a la contienda, los sistemas de IA de decano rendimiento del futuro podrían ser híbridos, integrando tanto TPU como GPU.

"Google Cloud está experimentando una demanda cada vez decano tanto para nuestras TPU personalizadas como para nuestras GPU Nvidia”, dijo un portavoz de Google a VentureBeat. “Como resultado, estamos ampliando significativamente nuestra proposición de GPU Nvidia para satisfacer la importante demanda de los clientes. La verdad es que la mayoría de nuestros clientes de Google Cloud utilizan tanto GPU como TPU. Con nuestra amplia selección de las últimas GPU de Nvidia y siete generaciones de TPU personalizados, ofrecemos a los clientes la flexibilidad de nominar para optimizar sus deyección específicas."

Related Posts

¿El Android que alguna vez conocimos se está erosionando lentamente? (Video)

Android se encuentra en un ocupación extraño en este momento; Podría decirse que es más resistente que nunca, pero se siente más acullá de la plataforma que se lanzó hace…

Adobe pagará un acuerdo de 75 millones de dólares por dificultar demasiado la abrogación de suscripciones

Adobe tiene acordó un acuerdo con el Área de Probidad de Estados Unidos por valía de 150 millones de dólares, incluyendo una tarifa de 75 millones de dólares pagada al…

You Missed

¿El Android que alguna vez conocimos se está erosionando lentamente? (Video)

¿El Android que alguna vez conocimos se está erosionando lentamente? (Video)

Donald Trump afirma que Irán está “totalmente derrotado”

Donald Trump afirma que Irán está “totalmente derrotado”

Adobe pagará un acuerdo de 75 millones de dólares por dificultar demasiado la abrogación de suscripciones

Adobe pagará un acuerdo de 75 millones de dólares por dificultar demasiado la abrogación de suscripciones

Trump y su aniquilamiento contra Irán afectan a inmigrantes

Trump y su aniquilamiento contra Irán afectan a inmigrantes

nuevo eje de la riqueza, aporta 4.5% del PIB y genera 365 mil empleos

nuevo eje de la riqueza, aporta 4.5% del PIB y genera 365 mil empleos

La MacBook Neo de Apple se modificó a un SSD de 1 TB, rompiendo la barrera de los 512 GB de la empresa: el maniquí primordial de 256 GB se modificó en una cirugía de intercambio NAND experta

La MacBook Neo de Apple se modificó a un SSD de 1 TB, rompiendo la barrera de los 512 GB de la empresa: el maniquí primordial de 256 GB se modificó en una cirugía de intercambio NAND experta