
A medida que la IA agente pasa de los experimentos a las cargas de trabajo de producción reales, un problema de infraestructura silencioso pero difícil está saliendo a la luz: la memoria. No calcular. No modelos. Memoria.
Debajo del capó, las GPU actuales simplemente no tienen suficiente espacio para juntar los cachés de títulos esencia (KV) de los que dependen los agentes de IA modernos y de larga duración para sostener el contexto. El resultado es una gran cantidad de desperdicio invisible: las GPU rehacen el trabajo que ya hicieron, los costos de la cúmulo aumentan y el rendimiento se ve afectado. Es un problema que ya está apareciendo en los entornos de producción, incluso si la mayoría de la gentío aún no le ha puesto nombre.
En una parada nuevo de la Serie VentureBeat AI Impact, el CTO de WEKA, Shimon Ben-David, se unió al CEO de VentureBeat, Matt Marshall, para desventrar el emergente “tapia de la memoria” de la industria y por qué se está convirtiendo en uno de los mayores obstáculos para avanzar una IA verdaderamente agente con estado: sistemas que pueden memorar y construir sobre el contexto a lo espléndido del tiempo. La conversación no sólo diagnosticó el problema; Estableció una forma completamente nueva de pensar sobre la memoria, a través de un enfoque que WEKA pasión almacenamiento de tokens.
El problema de la memoria de la GPU
“Cuando analizamos la infraestructura de inferencia, no se alcahuetería de un desafío de los ciclos de la GPU. Es principalmente un problema de memoria de la GPU”, afirmó Ben-David.
La raíz del problema se reduce a cómo funcionan los modelos de transformadores. Para originar respuestas, dependen de cachés KV que almacenan información contextual para cada token en una conversación. Cuanto más larga es la ventana de contexto, más memoria consumen esos cachés y se acumula rápidamente. Una sola secuencia de 100.000 tokens puede requerir aproximadamente 40 GB de memoria GPU, señaló Ben-David.
Eso no sería un problema si las GPU tuvieran memoria ilimitada. Pero no es así. Incluso las GPU más avanzadas alcanzan un mayor de en torno a de 288 GB de memoria de parada orgulloso de costado (HBM), y ese espacio igualmente debe contener el maniquí en sí.
En entornos de inferencia de múltiples inquilinos del mundo efectivo, esto se vuelve doloroso rápidamente. Las cargas de trabajo como el expansión de código o el procesamiento de declaraciones de impuestos dependen en gran medida del contexto de la personalidad KV.
“Si cargo tres o cuatro archivos PDF de 100.000 tokens en un maniquí, eso es todo: he fatigado la capacidad de personalidad KV en HBM”, afirmó Ben-David. Esto es lo que se conoce como el tapia de la memoria. “De repente, lo que el entorno de inferencia se ve obligado a hacer es descartar datos," añadió.
Eso significa que las GPU desechan constantemente el contexto que pronto volverán a precisar, lo que impide que los agentes tengan estado y mantengan conversaciones y contexto a lo espléndido del tiempo.
El impuesto de inferencia oculto
“Constantemente vemos GPU en entornos de inferencia recalculando cosas que ya hicieron”, dijo Ben-David. Los sistemas llenan previamente la personalidad KV, comienzan a decodificar, luego se quedan sin espacio y desalojan los datos anteriores. Cuando ese contexto es necesario nuevamente, todo el proceso se repite: precompletar, decodificar, precompletar nuevamente. A escalera, eso es una enorme cantidad de trabajo desperdiciado. Igualmente significa desperdicio de energía, veterano latencia y una experiencia de beneficiario degradada, todo mientras los márgenes se reducen.
Ese desperdicio de recálculo de GPU aparece directamente en el cómputo. Las organizaciones pueden sufrir casi un 40% de gastos generales sólo por ciclos de precarga redundantes. Esto está creando un intención dominó en el mercado de inferencia.
“Si nos fijamos en los precios de grandes proveedores de modelos como Anthropic y OpenAI, en ingenuidad están enseñando a los usuarios a instrumentar sus indicaciones de forma que aumenten la probabilidad de aceptar a la misma GPU que tiene almacenada su personalidad KV”, dijo Ben-David. “Si alcanza esa GPU, el sistema puede prescindir la período de precarga y comenzar a decodificar inmediatamente, lo que les permite originar más tokens de forma válido”.
Pero esto todavía no resuelve el problema subyacente de la infraestructura de la capacidad de memoria de la GPU extremadamente limitada.
Resolviendo la IA con estado
“¿Cómo se puede exceder ese tapia de la memoria? ¿Cómo se puede exceder? Esa es la esencia para una inferencia moderna y rentable”, dijo Ben-David. “Vemos varias empresas intentando resolver este problema de diferentes maneras”.
Algunas organizaciones están implementando nuevos modelos lineales que intentan crear cachés KV más pequeñas. Otros se centran en atracar la eficiencia de la personalidad.
“Para ser más eficientes, las empresas utilizan entornos que calculan la personalidad KV en una GPU y luego intentan copiarla desde la memoria de la GPU o utilizan un entorno almacén para ello”, explicó Ben-David. “¿Pero cómo se puede hacer eso a escalera de una forma rentable que no agote su memoria ni su red? Eso es poco en lo que WEKA está ayudando a nuestros clientes”.
Simplemente asociar más GPU al problema no resuelve la barrera de la memoria de la IA. “Hay algunos problemas a los que no se puede trastornar suficiente mosca para resolver," dijo Ben David.
Memoria aumentada y almacenamiento de tokens, explicado
La respuesta de WEKA es lo que pasión memoria aumentada y almacenamiento de tokens: una forma de repensar dónde y cómo se encuentran los datos de personalidad KV. En oportunidad de forzar que todo quepa internamente de la memoria de la GPU, Augmented Memory Grid de WEKA extiende la personalidad KV a un “almacén” rápido y compartido internamente de su cimentación NeuralMesh.
En la actos, esto convierte la memoria de una restricción estricta en un expediente escalable, sin asociar latencia de inferencia. WEKA dice que los clientes ven que las tasas de aciertos de la personalidad KV aumentan al 96%-99% para cargas de trabajo agentes, pegado con ganancias de eficiencia de hasta 4,2 veces más tokens producidos por GPU.
Ben-David lo expresó simplemente: "Imagine que tiene 100 GPU que producen una determinada cantidad de tokens. Ahora imagina que esas cien GPU funcionan como si fueran 420 GPU."
Para los grandes proveedores de inferencias, el resultado no es sólo un mejor rendimiento, sino que se traduce directamente en un impacto financiero efectivo.
“Con solo asociar esa capa de personalidad KV acelerada, estamos analizando algunos casos de uso en los que la cantidad de parquedad sería de millones de dólares por día”, dijo Ben-David.
Este multiplicador de eficiencia igualmente abre nuevas opciones estratégicas para las empresas. Los equipos de plataforma pueden diseñar agentes con estado sin preocuparse por aumentar los presupuestos de memoria. Los proveedores de servicios pueden ofrecer niveles de precios basados en un contexto persistente, con inferencia en personalidad entregada a un costo dramáticamente último.
¿Qué viene a posteriori?
NVIDIA proyecta un aumento de 100 veces en la demanda de inferencia a medida que la IA agente se convierta en la carga de trabajo dominante. Esa presión ya está llegando desde los hiperescaladores a las implementaciones empresariales cotidianas; esto ya no es sólo un problema de “gran tecnología”.
A medida que las empresas pasan de las pruebas de concepto a los sistemas de producción reales, la persistencia de la memoria se está convirtiendo en una preocupación central de la infraestructura. Las organizaciones que lo traten como una prioridad arquitectónica en oportunidad de una idea de posterior momento obtendrán una clara superioridad tanto en costo como en rendimiento.
El tapia de la memoria no es poco que las organizaciones puedan simplemente deteriorar más para exceder. A medida que la IA agente escalera, es uno de los primeros límites de la infraestructura de IA que obliga a un replanteamiento más profundo y, como dejaron en claro las ideas de Ben-David, la memoria igualmente puede ser el oportunidad donde comienza la próxima ola de diferenciación competitiva.






