Esta semana, Tachyum, una empresa que prometió un procesador que no se ha comercializado durante seis abriles, y contando, ahora ha publicado nuevas especificaciones objetivo y rendimiento esperado para su procesador universal Prodigy, escasamente un mes a posteriori de anunciar su última ronda de financiación y su intención de ‘poner al día’ el procesador Prodigy, que sólo existe en papel.
Con especificaciones objetivo para el conjunto de procesadores Prodigy más potente, algunas de las cuales parecen inalcanzables en un período de tiempo realista, Tachyum afirma que un esqueleto impulsado por su hardware Prodigy Ultimate será más de 21 veces más rápido que el próximo esqueleto NVL576 de Nvidia basado en las GPU Rubin Intolerante. Sin retención, los detalles sobre el procesador Prodigy de Tachyum publicados esta semana pueden indicar que el dispositivo se retrasará entre cuatro y cinco abriles más en el mejor de los casos.
Hardware prodigioso
Como se informó hace un mes, se dice que el procesador Prodigy de Tachyum, o más adecuadamente, sistema en paquete (SiP), adopta un diseño de múltiples chips, con cada chiplet fabricado en el nodo de clase de 2 nm de TSMC y presentando hasta 256 núcleos en gran medida personalizados con una tubería de ejecución superescalar fuera de orden de 8 vías y aceleradores de matriz y vectores.
Tachyum tiene la intención de presentar 12 SKU Prodigy, con el Prodigy Ultimate de viso ingreso con cuatro chiplets y ofreciendo 768 o 1024 núcleos, hasta 1 GB de gusto L2 y L3, 128 carriles PCIe y un subsistema de memoria de 24 canales que admite hasta 48 TB de memoria DDR5-17600 por zócalo y hasta 3,38 TB/s de pancho de costado mayor por zócalo. El SKU Prodigy Premium ejecuta dos chiplets y ofrece de 256 a 512 núcleos y un subsistema de memoria de 16 canales, mientras que el SKU Prodigy Entry tiene de 32 a 256 núcleos y un subsistema de memoria de 8 canales.
De un Documento de taquiumcada chiplet contiene lo que parece ser una matriz sistólica de 264 núcleos organizados en cuatro 11×6 grupos (66 por colección), cada uno de los cuales integra ocho núcleos redundantes, para un total de 256 núcleos/mecanismo matricial de 256 fundamentos visibles para el software por chiplet.
Esto corrobora la afirmación de Tachyum de que su procesador matricial incorporado admite 16×16, 8×8 y 4×4 operaciones. Encima, dicho diseño proporciona un medio ambiente de núcleo de CPU/MAC adicional por fila y un medio ambiente de núcleo de CPU/MAC adicional por columna, lo cual es consistente con las prácticas de diseño de matrices sistólicas que tienden a incluir fundamentos de repuesto para rendimiento y reparabilidad. Sin retención, tenga en cuenta que las CPU tienden a no utilizar disposiciones similares a matrices sistólicas oportuno a flujos de datos complicados y mayores latencias.
Por lo que podemos ver, cada chiplet está diseñado para ser un procesador completamente cómodo con hasta 256 núcleos, 256 MB de cachés L2 y L3, su propio subsistema de memoria DDR5 de ocho canales y E/S que incluye hasta 96 carriles PCIe 7.0 con 16 controladores. Tenga en cuenta que Tachyum parece reutilizar PCIe PHY para interconexiones de matriz a matriz y de socket a socket, por lo que el Prodigy Ultimate de viso ingreso “solo” ofrece 128 carriles PCIe 7.0.
Como siempre, las especificaciones de Tachyum impresionan en términos de números, pero la naturaleza abrumadora de estos números, inmediato con el historial de incumplimiento de la compañía, hace que sea difícil de creer e incluso esperar que se materialicen.
Por ejemplo, una CPU con capacidad informática de uso genérico con 1.024 núcleos que funcionen a hasta 6,0 GHz y consuman hasta 1.600 W de potencia parece poco realista hoy en día, especialmente en una empresa sin experiencia en la producción de tales diseños.
Encima, si adecuadamente la tecnología MRDIMM puede potencialmente habilitar módulos DDR5-17600 con circuitos integrados reales que transfieran datos en modo DDR5-8800, no existe tal explicación por ahora. Encima, los módulos de memoria DDR5 de 2 TB no existen hoy en día y no se dilación que se materialicen pronto, por lo que prometer reconocer hasta 48 TB de memoria por zócalo parece un poco prematuro.
Promesas de rendimiento prodigioso
Pero si adecuadamente las especificaciones de Tachyum para su procesador universal Prodigy parecen abrumadoras, hay que tener en cuenta que los dispositivos no se lanzarán hasta finales de la división. Incluso teniendo esto en cuenta, las promesas de rendimiento de Tachyum, en comparación con el hardware inexistente, parecen completamente extrañas.
Tachyum solía prometer que su Prodigy ofrecía “un rendimiento de IA mucho veterano, 3 veces el rendimiento de los mejores procesadores x86 y 6 veces el rendimiento de HPC de la GPGPU más rápida, pero sin proporcionar ningún cantidad cuantitativo”.
La sintonía de la compañía cambió en el posterior comunicado de prensa, ya que describió a Prodigy como capaz de ofrecer hasta cinco veces el rendimiento de números enteros, hasta 16 veces el rendimiento de la IA, 8 veces el pancho de costado de la memoria, cuatro veces el pancho de costado entre chips y de E/S, cuatro veces veterano escalamiento de múltiples sockets con soporte para 16 sockets y aproximadamente el doble de eficiencia energética, nuevamente sin proporcionar ningún presente números. La única excepción es quizás el pancho de costado de la memoria (3,38 TB/s), pero no es ocho veces veterano en comparación con el de AMD. CPU de la serie EPYC 9005.
Tal vez abordando las preocupaciones sobre su constante error de números, Tachyum reveló que su Prodigy de 2 nm entregaría más de ‘1,000 PFLOPS en inferencia’ y comparó este número con la GPU Rubin de Nvidia, que supuestamente entrega 50 NVFP4 PFLOPS, lo que sugiere que su procesador maneja un formato de datos similar (por ejemplo, FP4, MXFP4 o un formato propietario de 4 bits).
Sin retención, la afirmación puede contradecir el sentido global, ya que alcanzar un rendimiento 20 veces veterano que el de la GPU Rubin y al mismo tiempo ofrecer un pancho de costado de memoria 3,8 veces último es extremadamente difícil para cargas de trabajo de inferencia de IA limitadas al pancho de costado. Mientras tanto, la número de rendimiento 20 veces veterano parece servir como pulvínulo para afirmar que una posibilidad basada en Prodigy a escalera de rack será 21,3 veces más rápida que la NVL576 de Nvidia, que contará con 144 paquetes de GPU Rubin Intolerante.
Quizás el único número útil revelado por Tachyum esta semana fue la afirmación de rendimiento ‘400 FP64 TFLOPS para HPC’ para su procesador Prodigy Ultimate de 1.024 núcleos de viso ingreso. Si es cierto, entonces el procesador es 10 veces más rápido que el Blackwell B200 de Nvidia (40 FP64 TFLOPS) con una potencia 400W veterano, y cinco veces más rápido que el Instinct MI355X de AMD (78,6 FP64 TFLOPS), pero como no sabemos qué mecanismo generó ese resultado y cómo se logró, verdaderamente no podemos hacer esta comparación. De hecho, dada la tendencia de Tachyum a crear métricas patentadas (como ‘TAI PFLOPS’), es posible que la número ‘400 DP TFLOPS’ no siga la contabilidad FLOP normalizado (por ejemplo, si utiliza precisión equivalente a DP).
Otro retraso importante
El anuncio de esta semana de Tachyum cubre algunos aspectos de rendimiento del procesador universal Prodigy, revela importantes cambios de diseño (diseño de múltiples chips, nodo de 2 nm), revela alteraciones de las especificaciones ya anunciadas (más núcleos por chiplet, menos canales de memoria por chiplet, soporte PCIe 7.0, etc.) e indica que la compañía planea construir el procesador utilizando una tecnología de fabricación de clase de 2 nm, presumiblemente en TSMC. Todo esto es en un intento por dibujar una imagen positiva sobre el procesador. Sin retención, todos estos detalles apuntan a otro retraso importante de Tachyum’s Prodigy.
Sin retención, ahora que Tachyum planea mejorar el diseño y sobrevenir de una tecnología de proceso de clase de 5 nm basada en FinFET a un nodo de fabricación de clase de 2 nm basado en transistores de puerta completa, tiene que mejorar su diseño de suspensión nivel y luego retornar a la etapa de diseño RTL del chip, ya que casi todas las limitaciones físicas del chip cambian con el tipo de transistor.
Regalado que todo cambia para Prodigy con el rediseño y la asimilación de la tecnología GAA de 2 nm, Tachyum ahora tendrá que reelaborar completamente su RTL desde cero, lo que llevará más de un año (más probablemente 1,5 abriles, somos optimistas), considerando que tiene un equipo de entre 51 y 200 empleados. La comprobación y empuje completa del chip (prediseño) probablemente llevará otros 12 a 18 meses, cedido que se prostitución de un chiplet complicado implementado con una tecnología de fabricación de última procreación.
Los escenarios realistas apuntan alrededor de finales de 2030
Posteriormente de que se eliminen los peores errores funcionales, el equipo de Tachyum puede comenzar a sintetizar el diseño físico, que se superpondrá en parte con la comprobación y empuje, pero aún llevará más de 18 meses. Posteriormente de eso, la compañía puede proceder a la aniquilación, lo que tomará otro medio año, seguido de la primera puesta a punto del silicio y la empuje posterior al silicio, lo que tomará rodeando de un año si el primer chip funciona adecuadamente (si poco necesita un nuevo vuelta, agregue otros 18 meses). Cuando se completen estos pasos, Prodigy estará sagaz para la producción en masa. Sin retención, tanto el silicio como la plataforma tardarán al menos otros seis meses en ponerse en marcha.
Como resultado, Tachyum tendrá mucha suerte si consigue que su silicio Prodigy esté sagaz para enviarse interiormente de 60 meses a partir de ahora si comienza a funcionar hoy, lo que significa finales de 2029 en el mejor de los casos, y los productos reales se enviarán para 2030. Un proscenio más realista es tener el silicio sagaz en unos cinco abriles (a finales de 2030), y si el silicio necesita una nueva rotación, todo se retrasa hasta 2031-2032.
Por supuesto, estamos hablando de un proscenio en el que Tachyum maneja todo internamente. Sin retención, la empresa podría completar su diseño RTL internamente (ya que la subcontratación de RTL a nivel de microarquitectura es rara, arriesgada, costosa, difícil de depurar y poco global en la industria) y luego subcontratar todo lo demás a un diseñador de chips contratado con experiencia. En este caso, podríamos ver a Prodigy en producción esta división, si Tachyum tiene suerte.
Pero el tiempo puede no ser el veterano problema de Tachyum: puede quedarse sin capital mucho antiguamente de obtener el silicio Prodigy de la taller, ya que diseñar un chip basado en GAA de 2 nm de RTL para su producción en masa costará cientos de millones de dólares, más de 300 millones de dólares, dependiendo de la complejidad del chip. Quizás la empresa todavía pueda aceptar a promontorio el plan Prodigy con una subcontratación masiva, pero incluso entonces, ¿será el procesador competitivo con las soluciones del mercado rodeando de 2030? Encima, si Tachyum estaba dispuesto a subcontratar el diseño de Prodigy antiguamente, ¿por qué no lo ha hecho ya?
Formidable, pero los costos y la competencia acechan
Las nuevas especificaciones mejoradas de Tachyum para su procesador universal Prodigy lo hacen parecer un competidor formidable en el mundo de las CPU. Sin retención, estas nuevas especificaciones implican que Tachyum debe reiniciar gran parte del trabajo de diseño y comprobación, retrasando el plan al menos entre cuatro y cinco abriles. Dados los posibles limitados de la compañía, el historial de plazos incumplidos y el inmenso costo de diseñar un chip GAA de 2 nm de vanguardia, Prodigy puede tener dificultades para seguir siendo competitivo en el momento en que pueda comercializarse de modo realista.
Seguir Hardware de Tom en Google Newso agréganos como fuente preferidapara cobrar nuestras últimas informativo, examen y reseñas en sus feeds.





