El problema de la GPU de la IA es en sinceridad un problema de entrega de datos

Presentado por F5

A medida que las empresas invierten miles de millones en infraestructura de GPU para cargas de trabajo de IA, muchas descubren que sus costosos posibles informáticos permanecen inactivos mucho más de lo esperado. El culpable no es el hardware. Es la capa de entrega de datos, a menudo invisible, entre el almacenamiento y la computación la que priva a las GPU de la información que necesitan.

"Si perfectamente la concurrencia centra su atención, con razón, en las GPU, porque son inversiones muy importantes, rara vez son el hacedor limitante." dice Mark Menger, arquitecto de soluciones de F5. "Son capaces de realizar más trabajo. Están esperando datos."

El rendimiento de la IA depende cada vez más de un punto de control independiente y programable entre los marcos de IA y el almacenamiento de objetos, uno que la mayoría de las empresas no han diseñado deliberadamente. A medida que las cargas de trabajo de IA escalan, se producen cuellos de botella e inestabilidad cuando los marcos de IA están estrechamente acoplados a puntos finales de almacenamiento específicos durante eventos de escalamiento, fallas y transiciones a la estrato.

"Los patrones tradicionales de comunicación al almacenamiento no fueron diseñados para cargas de trabajo de IA en gran medida paralelas, en ráfagas y de múltiples consumidores." dice Maggie Stringfellow, vicepresidenta de mandato de productos de BIG-IP. "El movimiento valioso de datos de IA requiere una capa de entrega de datos distinta diseñada para generalizar, optimizar y proteger los flujos de datos independientemente de los sistemas de almacenamiento, porque la posesiones de la GPU hace que la ineficiencia sea inmediatamente visible y costosa."

Por qué las cargas de trabajo de IA abruman el almacenamiento de objetos

Estos patrones bidireccionales incluyen la ingesta masiva de captura continua de datos, resultados de simulación y puntos de control del maniquí. Combinado con formación intensiva en leída y cargas de trabajo de inferenciaenfatizan la infraestructura estrechamente acoplada de la que dependen los sistemas de almacenamiento.

Si perfectamente los proveedores de almacenamiento han realizado un trabajo importante para ampliar el rendimiento de los datos internamente y fuera de sus sistemas, ese enfoque solo en el rendimiento crea artículos en cautiverio en las capas de conmutación, mandato del tráfico y seguridad acopladas al almacenamiento.

El estrés en Sistemas compatibles con S3 de las cargas de trabajo de IA es multidimensional y difiere significativamente de los patrones de aplicaciones tradicionales. Se alcahuetería menos de rendimiento bruto y más de simultaneidad, presión de metadatos y consideraciones de distribución. El entrenamiento y el ajuste crean patrones particularmente desafiantes, como lecturas paralelas masivas de objetos de tamaño pequeño a mediano. Estas cargas de trabajo además implican pases repetidos a través de datos de entrenamiento a lo dadivoso de épocas y ráfagas periódicas de escritura de puntos de control.

Las cargas de trabajo de RAG introducen su propia complejidad mediante la amplificación de solicitudes. Una sola solicitud puede descomponerse en docenas o cientos de fragmentos de datos adicionales, generando más detalles, fragmentos relacionados y documentos más complejos. La concentración de estrés tiene menos que ver con la capacidad, la velocidad del sistema de almacenamiento y más con la mandato de solicitudes y la configuración del tráfico.

Los riesgos de engranar estrechamente los marcos de IA al almacenamiento

Cuando los marcos de IA se conectan directamente a los puntos finales de almacenamiento sin una capa de entrega intermedia, la fragilidad operativa se agrava rápidamente durante eventos de escalamiento, fallas y transiciones a la estrato, lo que puede tener consecuencias importantes.

"Cualquier inestabilidad en el servicio de almacenamiento tiene ahora un radiodifusión de acceso incontenible," dice Menger. "Cualquier cosa aquí se convierte en una descompostura del sistema, no en una descompostura de almacenamiento. O, francamente, un comportamiento extraviado en una aplicación puede tener artículos en cautiverio para todos los consumidores de ese servicio de almacenamiento."

Menger describe un patrón que ha pasado con tres clientes diferentes, donde el apretado unión derivó en fallas completas del sistema.

"Vemos que grandes cargas de trabajo de capacitación o ajuste abruman la infraestructura de almacenamiento y la infraestructura de almacenamiento cae." explica. "A esa escalera, la recuperación nunca se mide en segundos. Minutos si tienes suerte. Generalmente horas. Las GPU ahora no reciben nutriente. Están hambrientos de datos. Estos posibles de suspensión valía, durante todo el tiempo que el sistema está inactivo, tienen un retorno de la inversión agorero."

Cómo una capa de entrega de datos independiente alivio la utilización y la estabilidad de la GPU

El impacto financiero de introducir una capa de entrega de datos independiente se extiende más allá de la prevención de fallas catastróficas.

El desacoplamiento permite optimizar el comunicación a los datos independientemente del hardware de almacenamiento, lo que alivio la utilización de la GPU al aminorar el tiempo de inactividad y la contención, al tiempo que alivio la previsibilidad de los costos y el rendimiento del sistema a medida que aumenta la escalera, afirma Stringfellow.

"Permite el almacenamiento en personalidad inteligente, la configuración del tráfico y la optimización de protocolos más cerca de la computación, lo que reduce la salida de la estrato y los costos de amplificación del almacenamiento." ella explica. "Operacionalmente, este aislamiento protege los sistemas de almacenamiento de patrones ilimitados de comunicación a la IA, lo que resulta en un comportamiento de costos más predecible y un rendimiento estable en condiciones de crecimiento y variabilidad."

Uso de un punto de control programable entre la computación y el almacenamiento

La respuesta de F5 es posicionar su Plataforma de seguridad y entrega de aplicaciones, impulsada por BIG-IPcomo un "puerta de entrada de almacenamiento" que proporciona enrutamiento consciente del estado, evitación de puntos de comunicación, aplicación de políticas y controles de seguridad sin carencia de reescribir las aplicaciones.

"La comienzo de un nivel de entrega entre la computación y el almacenamiento ayuda a fijar los límites de la responsabilidad," dice Menger. "La computación se alcahuetería de ejecución. El almacenamiento tiene que ver con la durabilidad. La entrega se alcahuetería de confiabilidad."

El punto de control programable, que utiliza razonamiento condicional basada en eventos en ocasión de IA generativa, permite una mandato inteligente del tráfico que va más allá del simple seguridad de carga. Las decisiones de enrutamiento se basan en el estado auténtico del backend, utilizando un conocimiento inteligente del estado para detectar señales tempranas de problemas. Esto incluye monitorear los principales indicadores de problemas. Y cuando surgen problemas, el sistema puede aislar los componentes que se comportan mal sin interrumpir todo el servicio.

"Se hace necesaria una capa de entrega de datos independiente y programable porque permite que las políticas, la optimización, la seguridad y el control del tráfico se apliquen de forma uniforme en las rutas de ingesta y consumo sin modificar los sistemas de almacenamiento o los marcos de IA." Dice Stringfellow. "Al desacoplar el comunicación a los datos de la implementación del almacenamiento, las organizaciones pueden absorber de forma segura escrituras en ráfagas, optimizar las lecturas y proteger los sistemas backend de patrones ilimitados de comunicación a la IA."

Manejo de problemas de seguridad en la entrega de datos de IA

La IA no sólo está impulsando el rendimiento de los equipos de almacenamiento, sino que los está obligando a tratar el movimiento de datos como un problema tanto de rendimiento como de seguridad, afirma Stringfellow. Ya no se puede admitir la seguridad simplemente porque los datos se encuentran en lo más profundo del centro de datos. La IA introduce patrones de comunicación automatizados y de gran grosor que deben autenticarse, cifrarse y gobernarse rápidamente. Ahí es donde entra en surtido el F5 BIG-IP.

"F5 BIG-IP se ubica directamente en la ruta de datos de la IA para dedicar comunicación de suspensión rendimiento al almacenamiento de objetos mientras aplica políticas, inspecciona el tráfico y toma decisiones de mandato del tráfico basadas en la carga útil." Dice Stringfellow. "Alentar las GPU rápidamente es necesario, pero no suficiente; Los equipos de almacenamiento ahora necesitan echarse en brazos en que los flujos de datos de IA están optimizados, controlados y seguros."

Por qué la entrega de datos definirá la escalabilidad de la IA

De cara al futuro, los requisitos para la entrega de datos no harán más que intensificarse, afirma Stringfellow.

"La entrega de datos de IA pasará de una optimización masiva a una orquestación de datos en tiempo auténtico basada en políticas en sistemas distribuidos." ella dice. "Las arquitecturas basadas en Agentic y RAG requerirán un control detallado del tiempo de ejecución sobre la latencia, el gravedad del comunicación y los límites de confianza delegados. Las empresas deberían iniciar a tratar la entrega de datos como una infraestructura programable, no como un subproducto del almacenamiento o la creación de redes. Las organizaciones que hagan esto temprano escalarán más rápido y con menos aventura."

Los artículos patrocinados son contenido producido por una empresa que paga por la publicación o tiene una relación comercial con VentureBeat, y siempre están claramente marcados. Para más información, póngase en contacto ventas@venturebeat.com.