Huawei utilizó su mensaje de Año Nuevo para resaltar el progreso en sus ecosistemas Ascend AI y Kunpeng CPU, señalando el emanación de los supernodos Atlas 900 y el rápido crecimiento en la admisión por parte de los desarrolladores nacionales como “una colchoneta sólida para la informática”. El mensaje llega mientras China continúa acelerando los esfuerzos para reemplazar el hardware occidental en cargas de trabajo críticas de IA, y mientras Huawei se posiciona como lo más parecido que tiene el país a un proveedor de computación de IA verticalmente integrado.
El mensaje de Huawei ofrece una instantánea de una táctica que se ha estado desarrollando durante varios primaveras, moldeada por los controles de exportación de Estados Unidos, el acercamiento definido a la fabricación de vanguardia y un mercado interno cada vez más obligado a adoptar silicio restringido. En esas condiciones, las plataformas Ascend y Kunpeng de Huawei han evolucionado hasta convertirse en poco desigual de sus homólogos occidentales: menos centradas en la supremacía de un solo chip y más en la construcción de sistemas grandes y estrechamente acoplados que compensen los nodos más débiles con escalera, redes y control de software.
La bloque de Ascend y los límites del nodo
En el centro del esfuerzo de IA de Huawei se encuentra Ascend, construido cerca de de su bloque patentada Da Vinci. El Ascend 910 diferente, presentado en 2019, fue fabricado en el proceso de 7 nm de TSMC y entregó aproximadamente 256 TFLOPS de rendimiento FP16 a 350 W cotizados. Eso lo colocó en la misma clase amplia que los aceleradores de la era Volta de Nvidia, aunque sin el mismo ecosistema de software o prudencia de interconexión.
Las sanciones que se produjeron en los primaveras posteriores al emanación de Ascend cambiaron significativamente el campo de solaz, obligando a los generadores Ascend posteriores a utilizar los procesos N+1 y N+2 de SMIC, que son aproximadamente comparables a los nodos más antiguos de clase 7 nm sin EUV. El Ascend 910C, ahora la columna vertebral de los últimos clústeres de Huawei, es un paquete de doble matriz con dos chiplets grandes combinados en una sola plástico aceleradora. Sobre el papel, Huawei afirma tener hasta 780 TFLOPS de enumeración BF16, pero el campo de acción del chip y la eficiencia energética cuentan una historia más complicada.
Huawei sugiere que la huella de silicio combinada del 910C es cerca de de un 60% decano que la del H100 de Nvidia, con un beocio rendimiento por milímetro cuadrado y por vatio. De forma aislada, esa sería una propuesta perdedora, pero Huawei se ha apoyado mucho en las interconexiones y la agrupación. La empresa utiliza una estructura patentada de incorporación velocidad conexo con redes PCIe y RoCE tipificado para unir cientos o miles de aceleradores Ascend en un único sistema de inferencia o entrenamiento sensato.
Este enfoque es evidente en las afirmaciones de Huawei sobre los sistemas Atlas 900 y CloudMatrix. En motivo de competir plástico por plástico con la H100 de Nvidia o la MI300X de AMD, Huawei enfatiza el rendimiento anejo. Un sistema CloudMatrix 384, que conecta 384 aceleradores Ascend 910C, se ha posicionado como competitivo con los grandes pods basados en NVLink de Nvidia en cargas de trabajo seleccionadas, particularmente en inferencia. Pero aquí hay una compensación en términos de escalera física: mientras que Nvidia puede ofrecer un rendimiento FP4 de clase multi-exaflop en un puñado de racks, Huawei requiere un orden de magnitud más de espacio, suministro de energía y refrigeración.
La inferencia es donde Ascend parece más musculoso, y los informes de China indican que el 910C ofrece aproximadamente el 60% del rendimiento de clase H100 en tareas de inferencia, pero el entrenamiento sigue siendo más desafiante.
La ampliación como filosofía de diseño
En cuanto al supernodo Atlas 900, destacado en el mensaje de Año Nuevo de Huawei, probablemente sea mejor verlo como una habitación de espectáculo arquitectónico que como un producto que probablemente llegue al mercado chino en el corto plazo. Refleja la creencia de Huawei de que la computación de IA se puede industrializar a través de clústeres estandarizados construidos a partir de componentes controlados a nivel doméstico, incluso si cada componente va a la retaguardia de la vanguardia mundial.
Sin retención, aquí es donde entra en solaz la experiencia de Huawei en redes de telecomunicaciones. La empresa tiene décadas de experiencia en la creación de sistemas de nivel de cámara que priorizan la confiabilidad, el rendimiento determinista y la orquestación a gran escalera. Los clústeres de Ascend aplican esa mentalidad a la IA, con vigor en el comportamiento de escalamiento predecible y la integración con los propios marcos de IA de Huawei en motivo de liderar. puntos de relato.
Eso asimismo explica por qué Huawei describe la tecnología de supernodo como una tecnología “más fácilmente accesible” para formar una “columna vertebral sólida de computación de IA”. Huawei no está presentando a Ascend como un reemplazo directo de CUDA, sino como una pila alternativa, desde silicio hasta interconexión y compilador, que los clientes adoptan al por decano. Eso es poco que podría resultar atractivo para los proveedores de abundancia chinos que se enfrentan a realidades congruo duras en materia de adquisiciones y cumplimiento frente a las restricciones a las exportaciones y la incertidumbre geopolítica.
Kunpeng y la capa de CPU de soporte
Mientras tanto, informes recientes sugieren que la próxima gestación Kunpeng 930 está ampliando agresivamente el número de núcleos, apuntando a diseños de 120 núcleos construidos a partir de múltiples chiplets, mientras que la propia hoja de ruta de Huawei hace relato a las variantes Kunpeng 950 y 960 con 192 núcleos y 384 subprocesos. El rendimiento por núcleo parece estar aproximadamente en la clase Zen 3, lo que coloca a Kunpeng detrás de las piezas actuales de Xeon y EPYC, pero potencialmente competitivo en cargas de trabajo enormemente paralelas y orientadas al rendimiento.
Probablemente eso sea suficiente para Huawei. La función de Kunpeng es proporcionar datos a los aceleradores, administrar E/S y ejecutar software de infraestructura en un entorno donde la energía y el espacio en rack ya están dominados por los clústeres de Ascend. La estrecha integración importa más que la velocidad de un solo subproceso, y Arm le brinda a Huawei independencia arquitectónica de las licencias x86 y el aventura de exportación.
En conjunto, Ascend y Kunpeng nos muestran cómo la táctica de hardware de IA de China ha pasado de perseguir los mejores chips individuales de su clase a ensamblar plataformas viables de extremo a extremo bajo restricciones. La orientación del gobierno chino que desalienta nuevas compras de hardware de Nvidia, combinada con subsidios internos y reglas de adquisición, crea un gran mercado protegido para alternativas “suficientemente buenas”.
Pero “suficientemente bueno” conlleva ventajas obvias: los clusters de Huawei consumen más energía, ocupan más espacio y dependen de un musculoso aprovisionamiento excesivo para igualar el rendimiento de los sistemas occidentales más avanzados. Pero a la hora de la verdad, esos costos son evidentemente aceptables en un mercado donde la soberanía y la continuidad a prolongado plazo pesan más que la eficiencia.
Seguir Hardware de Tom en Google Newso agréganos como fuente preferidapara percibir nuestras últimas informativo, investigación y reseñas en sus feeds.






