La trampa de inferencia: cómo los proveedores de nubes están comiendo sus márgenes de IA

Este artículo es parte del número singular de VentureBeat, “El costo vivo de la IA: rendimiento, eficiencia y ROI a escalera”. Lea más de este número singular.

La IA se ha convertido en el santo comunión de las empresas modernas. Ya sea que se trate de un servicio al cliente o poco tan hornacina como el mantenimiento de la tubería, las organizaciones en cada dominio ahora están implementando tecnologías de IA, desde modelos fundamentales hasta VLA, para hacer las cosas más eficientes. El objetivo es sencillo: automatizar tareas para entregar resultados de forma más capaz y librarse efectivo y posibles simultáneamente.

Sin incautación, a medida que estos proyectos pasan del piloto a la etapa de producción, los equipos se encuentran con un obstáculo por los que no habían planeado: los costos de la nubarrón erosionan sus márgenes. El choque de la ceremonial es tan malo que una vez que se sintió como el camino más rápido cerca de la innovación y la preeminencia competitiva se convierte en un agujero cabreado presupuestario insostenible, en muy poco tiempo.

Esto incita a los CIO a repensar todo, desde la casa del maniquí hasta los modelos de implementación, para recuperar el control sobre los aspectos financieros y operativos. A veces, incluso cerran los proyectos por completo, comenzando desde cero.

Pero aquí está el hecho: si proporcionadamente la nubarrón puede aceptar costos a niveles insoportables, no es el rústico. Solo tiene que comprender qué tipo de transporte (infraestructura de IA) nominar seguir por la carretera (la carga de trabajo).

La historia de la nubarrón y dónde funciona

La nubarrón se parece mucho al transporte manifiesto (su medida y autobuses). Usted tiene a costado con un maniquí de arriendo simple, y al instante le brinda todos los posibles, desde instancias de GPU hasta escalera rápida en varias geografías, para llevarlo a su destino, todo con un trabajo y configuración mínimas.

El ataque rápido y manejable a través de un maniquí de servicio garantiza un eclosión valentísimo, allanando el camino para desgajar el tesina y hacer una experimentación rápida sin el enorme consumición de hacienda original de comprar GPU especializadas.

La mayoría de las nuevas empresas en etapa original encuentran este maniquí fructífero, ya que necesitan un cambio rápido más que cualquier otra cosa, especialmente cuando todavía están validando el maniquí y determinando el ajuste del mercado de productos.

“Usted hace una cuenta, haga clic en algunos chico y obtiene ataque a los servidores. Si necesita un tamaño de GPU diferente, apaga y reinicie la instancia con las nuevas especificaciones, que lleva minutos. Si desea ejecutar dos experimentos a la vez, inicializa dos instancias separadas. En las etapas tempranas, el foco está validando las ideas rápidamente. Utilizando la escalera incorporada y los marcos de experimentación proporcionados por la mayoría de las plataformas en la nubarrón, ayudan a disminuir las plataformas de las nubes de la nubarrón, ayuda a disminuir las plataformas de las nubes, a la hora de los Milestas, el tiempo, el foco, el uso de Ideas. Lidera el producto AI de voz en Machas del acentole dijo a VentureBeat.

El costo de la “facilidad”

Si proporcionadamente la nubarrón tiene mucho sentido para el uso de la etapa temprana, las matemáticas de infraestructura se vuelven sombrías a medida que el tesina pasa de las pruebas y la brío a los volúmenes del mundo vivo. La escalera de las cargas de trabajo hace que las facturas brutales, tanto que los costos puedan aumentar más del 1000% durante la sombra.

Esto es particularmente cierto en el caso de la inferencia, que no solo tiene que ejecutarse las 24 horas, los 7 días de la semana para certificar el tiempo de actividad del servicio, sino igualmente progresar con la demanda del cliente.

En la mayoría de las ocasiones, explica Sarin, la demanda de inferencia se dispara cuando otros clientes igualmente solicitan ataque a GPU, aumentando la competencia por los posibles. En tales casos, los equipos mantienen una capacidad reservada para cerciorarse de que obtengan lo que necesitan, lo que lleva al tiempo inactivo de GPU durante las horas no pico, o sufren latencias, afectando la experiencia aguas debajo.

Christian Khoury, CEO de la plataforma de cumplimiento de IA Easauditit aidescribió la inferencia como el nuevo “impuesto en la nubarrón”, diciéndole a VentureBeat que ha manido que las compañías van de $ 5k a $ 50k/mes durante la sombra, solo por el tráfico de inferencia.

Igualmente vale la pena señalar que las cargas de trabajo de inferencia que involucran LLM, con precios basados ​​en token, pueden desencadenar los aumentos de costos más pronunciados. Esto se debe a que estos modelos no son deterministas y pueden suscitar diferentes horizontes al manejar tareas de larga duración (que involucran grandes ventanas de contexto). Con actualizaciones continuas, es efectivamente difícil pronosticar o controlar los costos de inferencia de LLM.

El entrenamiento de estos modelos, por su parte, es “explosivo” (que ocurre en grupos), lo que deja poco de espacio para la planificación de la capacidad. Sin incautación, incluso en estos casos, especialmente a medida que las crecientes fuerzas de competencia frecuentan el reentrenamiento, las empresas pueden tener facturas masivas del tiempo inactivo de GPU, derivado de la sobreprovisión.

“Los créditos de capacitación en las plataformas en la nubarrón son costosos, y el reentrenamiento frecuente durante los ciclos de iteración rápidos puede aumentar los costos rápidamente. Las largas carreras de capacitación requieren ataque a máquinas grandes, y la mayoría de los proveedores de la nubarrón solo garantizan ese ataque si se reserva la capacidad durante un año o más. Si su ejecución de entrenamiento solo dura unas pocas semanas, aún paga por el resto del año”, explicó Sarin.

Y no es solo esto. El aislamiento de la nubarrón es muy vivo. Supongamos que ha realizado una reserva a extenso plazo y ha comprado créditos de un proveedor. En ese caso, estás encerrado en su ecosistema y tienes que usar lo que tengan en propuesta, incluso cuando otros proveedores se han mudado a una nueva y nueva infraestructura. Y, finalmente, cuando obtienes la capacidad de moverte, es posible que tengas que soportar tarifas de salida masivas.

“No es solo un costo de cálculo. Obtienes … impredecible autoscalado y tarifas de salida loca si está moviendo datos entre regiones o proveedores. Un equipo estaba pagando más para mover datos que para entrenar sus modelos”, enfatizó Sarin.

Entonces, ¿cuál es la decisión?

Dada la constante demanda de infraestructura de progresar la inferencia de IA y la naturaleza estallada de la capacitación, las empresas se están moviendo a dividir las cargas de trabajo, lo que tiene inferencia a las pilas de colocación o en las primeras, mientras deja el entrenamiento en la nubarrón con instancias spot.

Esto no es solo la teoría: es un movimiento creciente entre los líderes de ingeniería que intentan poner a la IA en la producción sin quemarse en la pista.

“Hemos ayudado a los equipos a cambiar a la colocación por inferencia utilizando servidores de GPU dedicados que controlan. No es sexy, pero reduce el consumición mensual de infra en 60-80%”, agregó Khoury. “Hybrid no solo es más módico, es más inteligente”.

En un caso, dijo, una compañía SaaS redujo su extracto mensual de infraestructura de IA de aproximadamente $ 42,000 a solo $ 9,000 al mover la inferencia de la nubarrón de la nubarrón. El interruptor se pagó en menos de dos semanas.

Otro equipo que requiere respuestas consistentes de sub-50 ms para una aparejo de atención al cliente de IA descubrió que la latencia de inferencia basada en la nubarrón era insuficiente. La inferencia cambiante más cerca de los usuarios a través de la colocación no solo resolvió el cuello de botella de rendimiento, sino que redujo a la fracción el costo.

La configuración generalmente funciona de esta forma: la inferencia, que siempre es encendida y sensible a la latencia, se ejecuta en GPU dedicadas, ya sea en las primeras o en un centro de datos cercano (instalación de colocación). Mientras tanto, el entrenamiento, que es intensivo en enumeración pero esporádico, permanece en la nubarrón, donde puede doblar a los poderosos grupos a pedido, valer durante unas pocas horas o días, y cerrar.

En términos generales, se estima que el arriendo de proveedores de nubes de hiperescala puede costar entre tres y cuatro veces más por hora de GPU que trabajar con proveedores más pequeños, y la diferencia es aún más significativa en comparación con la infraestructura en la NEPEM.

¿El otro gran bono? Previsibilidad.

Con pilas de colocación o colocación, los equipos igualmente tienen un control total sobre la cantidad de posibles que desean aprovisionar o pegar para las cargas de trabajo de inferencia de cojín esperadas. Esto aporta previsibilidad a los costos de infraestructura, y elimina las facturas sorpresa. Igualmente reduce el esfuerzo de ingeniería agresivo para ajustar la escalera y permanecer los costos de infraestructura en la nubarrón en el interior de lo bastante.

Las configuraciones híbridas igualmente ayudan a disminuir la latencia para aplicaciones de IA sensibles al tiempo y permiten un mejor cumplimiento, particularmente para los equipos que operan en industrias enormemente reguladas como finanzas, atención médica y educación, donde la residencia y la gobernanza de los datos no son negativos.

La complejidad híbrida es vivo, pero rara vez es un rompeolas

Como siempre ha sido el caso, el cambio a una configuración híbrida viene con su propio impuesto OPS. Configurar su propio hardware o arrendar una instalación de colocación lleva tiempo, y la trámite de GPU fuera de la nubarrón requiere un tipo diferente de músculo de ingeniería.

Sin incautación, los líderes argumentan que la complejidad a menudo se exagera y generalmente es manejable internamente o mediante soporte foráneo, a menos que uno esté operando a una escalera extrema.

“Nuestros cálculos muestran que un servidor de GPU en el primer puesto cuesta aproximadamente lo mismo que seis a nueve meses de arrendar la instancia equivalente de AWS, Azure o Google Cloud, incluso con una tarifa reservada de un año. Cedido que el hardware generalmente dura al menos tres abriles, y a menudo más de cinco, esto se vuelve positivo en los primeros meses. Algunos proveedores de hardware igualmente ofrecen modelos de practicantes operacionales para un infrastructo de hacienda, así que se vuelve positivo en el costo en los primeros meses. una preocupación ”, explicó Sarin.

Priorizar por carencia

Para cualquier empresa, ya sea una startup o una empresa, la secreto del éxito al arquitectando, o rearquitectando, la infraestructura de IA radica en trabajar de acuerdo con las cargas de trabajo específicas en cuestión.

Si no está seguro sobre la carga de diferentes cargas de trabajo de IA, comience con la nubarrón y esté atento a los costos asociados etiquetando cada expediente con el equipo responsable. Puede compartir estos informes de costos con todos los gerentes y hacer una inmersión profunda en lo que están utilizando y su impacto en los posibles. Estos datos darán claridad y ayudarán a allanar el camino para impulsar la eficiencia.

Dicho esto, recuerde que no se manejo de desentenderse la nubarrón por completo; Se manejo de optimizar su uso para maximizar las eficiencias.

“La nubarrón sigue siendo excelente para la experimentación y el entrenamiento explosivo. Pero si la inferencia es su carga de trabajo central, sal de la cinta de valer de arriendo. Hybrid no solo es más módico … es más inteligente”, agregó Khoury. “Trate la nubarrón como un prototipo, no como el hogar permanente. Ejecute las matemáticas. Hable con sus ingenieros. La nubarrón nunca le dirá cuándo es la aparejo incorrecta. Pero su extracto de AWS lo hará”.

Related Posts

Apple ganó aproximadamente 900 millones de dólares con aplicaciones de IA generativa en 2025

Entre enero y agosto de 2025, los ingresos de la App Store procedentes de aplicaciones de IA generativa casi se triplicaron. impulsado en gran medida por las suscripciones a ChatGPT.…

El tendero es estafado cuando un cliente de eBay devuelve un RTX 5090 de $ 4,000 al que le faltan módulos de memoria y núcleo de GPU: Zotac en pleno funcionamiento, despojado de los componentes más valiosos y devuelto

Tenemos otro caso clásico de estafa de piezas de PC que involucra al RTX 5090. Según un tendero de ebayun cliente hizo poco rápido al devolver una Zotac Gaming GeForce…

You Missed

Lía Lockhart, la dominicana que protagoniza la nueva película “La vida chueca” – Remolacha

Lía Lockhart, la dominicana que protagoniza la nueva película “La vida chueca” – Remolacha

Una lucecita para los suplidores del Estado

Una lucecita para los suplidores del Estado

Chiky Bombom revela que renovó su resolución con Telemundo tras rumores de despido

Chiky Bombom revela que renovó su resolución con Telemundo tras rumores de despido

Apple ganó aproximadamente 900 millones de dólares con aplicaciones de IA generativa en 2025

Apple ganó aproximadamente 900 millones de dólares con aplicaciones de IA generativa en 2025

Exceso de velocidad causa 4 de cada 10 accidentes en La Altagracia

Exceso de velocidad causa 4 de cada 10 accidentes en La Altagracia

El petróleo, un espíritu que gobierna el mundo

El petróleo, un espíritu que gobierna el mundo