
La industria de la tecnología acento cada vez más de que las GPU son fundamentales para la infraestructura de IA, pero el cifra limitante que decide qué modelos se pueden ejecutar es en ingenuidad la memoria.
En una amplia entrevista, el director ejecutor de Phison, Pua Khein Seng, quien inventó la primera pelotón flash USB de un solo chip del mundo, dijo TechRadar Pro El enfoque en la computación ha distraído la atención de una restricción más básica que aparece en todas partes, desde las computadoras portátiles que ejecutan inferencia restringido hasta los hiperescaladores que construyen centros de datos de IA.
“En los modelos de IA, el serio cuello de botella no es la potencia informática, sino la memoria”, afirmó Pua. “Si no tienes suficiente memoria, el sistema falta”.
Compensación de límites de DRAM
Este poco es lo que hay detrás del trabajo aiDAPTIV+ de Phison, que la compañía discutió públicamente en CES 2026, y esencialmente es una forma de extender el procesamiento de IA a sistemas de GPU integrados mediante el uso de memoria flash NAND como rama de memoria.
Pua lo describe como el uso de la capacidad SSD para compensar los límites de DRAM y proseguir las GPU enfocadas en la computación en ocasión de esperar en la memoria.
“Nuestro invento utiliza SSD como complemento a la memoria DRAM”, afirma. “Usamos esto como expansión de la memoria”.
Un objetivo práctico es mejorar la capacidad de respuesta durante la inferencia, especialmente el tiempo hasta el primer token, el retraso entre mandar un mensaje y ver el primer resultado. Pua sostiene que el TTFT grande hace que la IA restringido se sienta defectuosa, incluso cuando el maniquí finalmente completa la tarea.
“Si le preguntas poco a tu dispositivo y tienes que esperar 60 segundos para escuchar la primera palabra, ¿esperarías?” él dice. “Cuando interrogo poco, puedo esperar dos segundos. Pero si tardo 10 segundos, los usuarios pensarán que es basura”.
Pua vincula las mejoras de TTFT con una mejor reutilización de los datos de inferencia con mucha memoria, en particular el personalidad KV, comparándolo con un médico que repite las mismas instrucciones a cada paciente porque no se conserje falta entre visitas.
“En la inferencia de IA, hay poco llamado personalidad KV: es como cookies en la navegación web”, amplió. “La mayoría de los sistemas no tienen suficiente DRAM, por lo que cada vez que haces la misma pregunta, tiene que recalcularlo todo”.
El enfoque de Phison, añadió Pua, es “acumular el personalidad utilizado con frecuencia en el almacenamiento” para que el sistema pueda recuperarlo rápidamente cuando un sucesor repite o vuelve a presentarse una consulta.
Ese situación de memoria primero se extiende más allá de las computadoras portátiles y alpargata la forma en que las empresas construyen servidores GPU, como señala Pua, muchas organizaciones compran GPU adicionales no para el rendimiento de procesamiento, sino para recoger más VRAM, lo que conduce a un desperdicio de silicio.
“Sin nuestra posibilidad, la clan negocio varias tarjetas GPU principalmente para amplificar memoria, no para potencia de cálculo”, añade. “La mayoría de esas costosas GPU terminan inactivas porque solo se usan para su memoria”.
Si los SSD pueden proporcionar un conjunto de memoria más prócer, dice Pua, en su ocasión se pueden comprar y ascender GPU para computación. “Una vez que tenga suficiente memoria, podrá concentrarse en la velocidad de procesamiento”, señala, “si una GPU es lenta, puede amplificar dos, cuatro u ocho GPU para mejorar la potencia de procesamiento”.
SSD de 244 TB
A partir de ahí, Pua amplió la cristal a la capital de los hiperescaladores y la infraestructura de IA, describiendo la ola coetáneo de compra en GPU como necesaria pero incompleta, porque el argumento comercial para la IA depende de la inferencia, y la inferencia depende del almacenamiento de datos.
“Los CSP han invertido más de 200 mil millones de dólares en GPU”, afirma. “No están ganando caudal directamente con las GPU. Los ingresos provienen de la inferencia, que requiere un almacenamiento masivo de datos”.
Resumió la situación con una frase a la que volvió repetidamente: “El beneficio de la CSP es igual a la capacidad de almacenamiento”.
Asimismo describió una ruta alternativa interesante: matrices NAND de longevo densidad. “Estamos esperando matrices NAND de 4 Tb; con ellas, podríamos alcanzar 244 TB con sólo 16 capas”, dijo, y agregó que el tiempo dependería de la sensatez de la fabricación.
En PLC NAND, Pua dejó claro que Phison no controla cuándo llega, pero nos dijo que tiene la intención de respaldarlo una vez que los fabricantes puedan enviarlo de forma confiable.
“PLC es NAND de cinco bits, eso es principalmente una valentía del fabricante de NAND, no nuestra”, dijo. “Cuando las empresas NAND maduren su tecnología PLC, nuestros diseños SSD estarán listos para admitirla”.
Se mostró más escéptico acerca de una tendencia de almacenamiento diferente: vincular la memoria flash directamente a pilas de memoria estilo GPU, a veces discutidas bajo etiquetas como flash de gran satisfecho de lado. Pua argumentó que el desajuste en la resistor crea un modo de falta desagradable.
“El desafío de integrar NAND directamente con las GPU es la tapia del ciclo de escritura”, dijo. “La NAND tiene ciclos finitos de programación/borrado. Si los integras, cuando la NAND llegue al final de su vida útil, tendrás que desechar toda la costosa plástico GPU”.
El maniquí preferido de Phison es modular: “proseguir los SSD como componentes reemplazables, plug-and-play. Cuando un SSD se desgasta, simplemente se reemplaza y se conserva la costosa GPU”.
En conjunto, la visión de Pua sobre el futuro del hardware de IA tiene menos que ver con la búsqueda de GPU cada vez más grandes y más con la construcción de sistemas donde la capacidad de memoria sea trueque, escalable y reemplazable.
Ya sea que el objetivo sea la inferencia restringido en una GPU integrada o la inferencia a escalera de rack en un hiperescalador, la compañía puesta a que la densidad de almacenamiento y la expansión de la memoria decidirán qué es práctico mucho antiguamente de que lo haga otro brinco en la computación.
Siga TechRadar en Google News y agréganos como fuente preferida para aceptar telediario, reseñas y opiniones de nuestros expertos en sus feeds. ¡Asegúrate de hacer clic en el retoño Seguir!
Y por supuesto incluso puedes Siga TechRadar en TikTok para telediario, reseñas, unboxings en forma de video y reciba actualizaciones periódicas de nuestra parte en WhatsApp incluso.






