El equipo detrás del procesamiento por lotes continuo dice que sus GPU inactivas deberían ejecutar inferencia, no permanecer a oscuras

Cada clúster de GPU tiene tiempo muerto. Los trabajos de capacitación terminan, las cargas de trabajo cambian y el hardware permanece sin funcionar mientras los costos de energía y refrigeración siguen aumentando. Para los operadores de neocloud, esos ciclos vacíos son un beneficio de pérdida.

La alternativa obvia son los mercados spot de GPU: traspasar capacidad sobrante a quien la necesite. Pero los casos puntuales significan que el proveedor de la abundancia sigue siendo el que alquila, y los ingenieros que compran esa capacidad siguen pagando por la computación en bruto sin pila de inferencia adjunta.

La respuesta de FriendliAI es diferente: ejecutar la inferencia directamente en el hardware no utilizado, optimizar el rendimiento del token y dividir los ingresos con el cámara. FriendliAI fue fundada por Byung-Gon Chun, el investigador cuyo artículo sobre procesamiento por lotes continuo se convirtió en la cojín de vLLM, el motor de inferencia de código franco que se utiliza en la mayoría de las implementaciones de producción actuales.

Chun pasó más de una decenio como profesor en la Universidad Doméstico de Seúl estudiando la ejecución apto de modelos de educación espontáneo a escalera. Esa investigación produjo un artículo llamado Orcaque introdujo el procesamiento por lotes continuo. La técnica procesa las solicitudes de inferencia de forma dinámica en extensión de esperar a completar un parte fijo antiguamente de ejecutarlas. Ahora es un habitual de la industria y es el mecanismo central en el interior de vLLM.

Esta semana, FriendliAI bichero una nueva plataforma indicación InferenceSense. Así como los editores usan Google AdSense para monetizar el inventario de anuncios no vendidos, los operadores de neocloud pueden usar InferenceSense para satisfacer los ciclos de GPU no utilizados con cargas de trabajo de inferencia de IA pagas y recibir una parte de los ingresos simbólicos. Los propios trabajos del cámara siempre tienen prioridad: en el momento en que un programador recupera una GPU, InferenceSense cede.

"Lo que ofrecemos es que, en extensión de dejar que las GPU estén inactivas, al ejecutar inferencias pueden monetizar esas GPU inactivas." Chun dijo a VentureBeat.

Cómo un laboratorio de la Universidad Doméstico de Seúl construyó el motor en el interior de vLLM

Chun fundó FriendliAI en 2021, antiguamente de que la longevo parte de la industria cambiara su atención de la capacitación a la inferencia. El producto principal de la compañía es un servicio de punto final de inferencia dedicado para nuevas empresas y empresas de IA que ejecutan modelos abiertos. FriendliAI igualmente aparece como una opción de implementación en Hugging Face contiguo con Azure, AWS y GCP, y actualmente admite más de 500.000 modelos abiertos de la plataforma.

InferenceSense ahora extiende ese motor de inferencia al problema de capacidad que enfrentan los operadores de GPU entre cargas de trabajo.

como funciona

InferenceSense se ejecuta sobre Kubernetes, que la mayoría de los operadores de neocloud ya utilizan para la orquestación de medios. Un cámara asigna un especie de GPU a un clúster de Kubernetes administrado por FriendliAI, declarando qué nodos están disponibles y bajo qué condiciones pueden recuperarse. La detección inactiva se realiza a través del propio Kubernetes.

"Tenemos nuestro propio orquestador que se ejecuta en las GPU de estos proveedores de neonube (o simplemente abundancia)." Dijo Chun. "Definitivamente aprovechamos Kubernetes, pero el software que se ejecuta encima es una pila de inferencia efectivamente enormemente optimizada."

Cuando las GPU no se utilizan, InferenceSense activa contenedores aislados que sirven cargas de trabajo de inferencia pagas en modelos de peso franco, incluidos DeepSeek, Qwen, Kimi, GLM y MiniMax. Cuando el programador del cámara necesita recuperar el hardware, las cargas de trabajo de inferencia se adelantan y se devuelven las GPU. FriendliAI dice que la transferencia se produce en cuestión de segundos.

La demanda se agrega a través de los clientes directos de FriendliAI y mediante agregadores de inferencia como OpenRouter. El cámara suministra la capacidad; FriendliAI maneja la canalización de demanda, la optimización del maniquí y la pila de servicios. No hay tarifas iniciales ni compromisos mínimos. Un panel en tiempo existente muestra a los operadores qué modelos se están ejecutando, tokens en proceso y ingresos acumulados.

Por qué el rendimiento del token supera al arrendamiento de capacidad bruta

Los mercados spot de GPU de proveedores como CoreWeave, Lambda Labs y RunPod implican que el proveedor de la abundancia alquile su propio hardware a un tercero. InferenceSense se ejecuta en hardware que ya posee el cámara de neocloud, y el cámara define qué nodos participan y establece acuerdos de programación con FriendliAI por superior. La distinción importa: los mercados spot monetizan la capacidad, InferenceSense monetiza los tokens.

El rendimiento del token por hora de GPU determina cuánto puede aventajar efectivamente InferenceSense durante las ventanas no utilizadas. FriendliAI afirma que su motor ofrece de dos a tres veces el rendimiento de una implementación vLLM habitual, aunque Chun señala que la emblema varía según el tipo de carga de trabajo. La mayoría de las pilas de inferencia de la competencia se basan en marcos de código franco basados en Python. El motor de FriendliAI está escrito en C++ y utiliza núcleos de GPU personalizados en extensión de la biblioteca cuDNN de Nvidia. La empresa ha creado su propia capa de representación de modelos para particionar y ejecutar modelos en hardware, con sus propias implementaciones de decodificación especulativa, cuantificación y gobierno de personalidad KV.

Poliedro que el motor de FriendliAI procesa más tokens por hora de GPU que una pila vLLM habitual, los operadores deberían gestar más ingresos por ciclo no utilizado de los que podrían gestar con su propio servicio de inferencia.

Lo que deberían tener en cuenta los ingenieros de IA que evalúan los costos de inferencia

Para los ingenieros de IA que evalúan dónde ejecutar cargas de trabajo de inferencia, la valentía entre neonube frente a hiperescalador generalmente se ha estrecho a precio y disponibilidad.

InferenceSense añade una nueva consideración: si las neonubes pueden monetizar la capacidad inactiva mediante inferencia, tienen más incentivos económicos para prolongar competitivos los precios de los tokens.

Ésa no es una razón para cambiar las decisiones de infraestructura hoy: todavía es temprano. Pero los ingenieros que rastrean el costo total de inferencia deberían observar si la asimilación de plataformas como InferenceSense en la neonube ejerce presión a la desestimación sobre los precios de API para modelos como DeepSeek y Qwen durante los próximos 12 meses.

"Cuando tengamos proveedores más eficientes, el costo universal bajará," Dijo Chun. "Con InferenceSense podemos contribuir a desencarecer esos modelos."

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

El equipo detrás del procesamiento por lotes continuo dice que sus GPU inactivas deberían ejecutar inferencia, no permanecer a oscuras

Cómo un laboratorio de la Universidad Doméstico de Seúl construyó el motor en el interior de vLLM

como funciona

Por qué el rendimiento del token supera al arrendamiento de capacidad bruta

Lo que deberían tener en cuenta los ingenieros de IA que evalúan los costos de inferencia

ztevenreal

Related Posts

Gemini en Pixel 10 ahora puede completar tareas en aplicaciones automáticamente

Su primer NAS no tiene por qué ser caro, y este es el que yo compraría

Leave a Reply Cancel reply

You Missed

Indomet prevé aumento de aguaceros desde este viernes por vaguada y sistema primero

¿cuáles han recibido decano apoyo? – El Nuevo Diario (República Dominicana)

DNCD incauta 15 paquetes de presunta cocaína y apresa a un hombre en Los Alcarrizos

Los líderes de la UE dan el gastado bueno para desbloquear Ormuz | AlMomento.net

Gemini en Pixel 10 ahora puede completar tareas en aplicaciones automáticamente

Dominicanos competirán en torneo mundial de yudo en Georgia