La crisis de capacidad de la IA: peligro de latencia, aumento de costos y el próximo punto de quiebre en el aumento de precios

La crisis de capacidad de la IA: peligro de latencia, aumento de costos y el próximo punto de quiebre en el aumento de precios

El extremo gran titular en IA no es el tamaño del maniquí o la multimodalidad: es la crisis de capacidad. En la última parada AI Impact de VentureBeat en Nueva York, Val Bercovici, director de IA de WEKAse unió a Matt Marshall, director ejecutante de VentureBeat, para analizar lo que en realidad se necesita para avanzar la IA en medio de una latencia creciente, el asedio de la cirro y los costos desbocados.

Esas fuerzas, argumentó Bercovici, están empujando a la IA con destino a su propia lectura de aumento de precios. Uber introdujo precios repentinos, llevando por primera vez las tarifas del mercado en tiempo auténtico a los viajes compartidos. Ahora, argumentó Bercovici, la IA se encamina con destino a el mismo cálculo crematístico (especialmente para la inferencia) cuando el foco se centra en la rentabilidad.

"Hoy no tenemos tasas reales de mercado. Disponemos de tarifas bonificadas. Eso ha sido necesario para permitir gran parte de la innovación que se ha estado produciendo, pero tarde o temprano (teniendo en cuenta los billones de dólares de pago de haber de los que estamos hablando en este momento y el pago operante finito de energía) las tasas reales del mercado van a aparecer; quizás el año que viene, ciertamente para 2027," dijo. "Cuando lo hagan, cambiarán fundamentalmente esta industria e impulsarán un enfoque aún más profundo y agudo en la eficiencia."

La pertenencias de la acceso simbólica

"La primera regla es que ésta es una industria donde más es más. Más tokens equivalen exponencialmente a más valencia comercial," dijo Bercovici.

Pero hasta ahora nadie ha descubierto cómo hacerlo sostenible. La tríada empresarial clásica (costo, calidad y velocidad) se traduce en IA en latencia, costo y precisión (especialmente en tokens de salida). Y la precisión no es negociable. Esto se aplica no solo a las interacciones de los consumidores con agentes como ChatGPT, sino igualmente a casos de uso de stop peligro, como el descubrimiento de fármacos y los flujos de trabajo comerciales en industrias fuertemente reguladas, como los servicios financieros y la atención médica.

"Eso no es negociable," dijo Bercovici. "Debe tener una gran cantidad de tokens para una ingreso precisión de inferencia, especialmente cuando agrega seguridad a la combinación, modelos de baranda y modelos de calidad. Entonces estás compensando la latencia y el costo. Ahí es donde tienes cierta flexibilidad. Si puede tolerar una latencia ingreso, y a veces puede hacerlo en casos de uso de consumidores, entonces puede tener un costo más bajo, con niveles gratuitos y niveles plus de bajo costo."

Sin bloqueo, la latencia es un cuello de botella crítico para los agentes de IA. “Estos agentes ahora no operan en ningún sentido singular. O hay un enjambre de agentes o no hay ninguna actividad de agentes”, señaló Bercovici.

En un enjambre, grupos de agentes trabajan en paralelo para completar un objetivo maduro. Un agente orquestador (el maniquí más inteligente) se ubica en el centro y determina las subtareas y los requisitos secreto: opciones de casa, ejecución en la cirro contra ejecución nave, limitaciones de rendimiento y consideraciones de seguridad. Luego, el enjambre ejecuta todas las subtareas, generando efectivamente numerosos usuarios de inferencia simultáneos en sesiones paralelas. Finalmente, los modelos de evaluación juzgan si la tarea normal se completó con éxito.

“Estos enjambres pasan por lo que se claridad múltiples turnos, cientos, si no miles, de indicaciones y respuestas hasta que el enjambre se reúne para dar una respuesta”, dijo Bercovici.

“Y si hay un retraso compuesto en esos miles de giros, se vuelve insostenible. Así que la latencia es en realidad importante. Y eso normalmente significa tener que remunerar un stop precio hoy que está subsidiado, y eso es lo que tendrá que apearse con el tiempo”.

El estudios por refuerzo como nuevo modelo

Hasta mayo de este año, los agentes no tenían tanto rendimiento, explicó Bercovici. Y luego las ventanas de contexto se volvieron lo suficientemente grandes y las GPU estaban disponibles lo suficiente como para aposentar agentes que pudieran completar tareas avanzadas, como escribir software confiable. Ahora se estima que, en algunos casos, el 90% del software es generado por agentes codificadores. Ahora que los agentes esencialmente han corto la mayoría de momento, señaló Bercovici, el estudios por refuerzo es la nueva conversación entre los científicos de datos en algunos de los laboratorios líderes, como OpenAI, Anthropic y Gemini, quienes lo ven como un camino crítico con destino a la innovación en IA.

"La temporada contemporáneo de IA es el estudios por refuerzo. Combina muchos de los fundamentos de entrenamiento e inferencia en un flujo de trabajo unificado”, dijo Bercovici. “Es la última y maduro ley de escalamiento de este hito mítico que todos estamos tratando de alcanzar llamado AGI: inteligencia industrial normal”, agregó. "Lo que me resulta fascinante es que hay que aplicar todas las mejores prácticas sobre cómo entrenar modelos, encima de todas las mejores prácticas sobre cómo inferir modelos, para poder iterar estos miles de bucles de estudios por refuerzo y avanzar en todo el campo."

El camino con destino a la rentabilidad de la IA

No hay una respuesta única cuando se negociación de construir una colchoneta de infraestructura para hacer que la IA sea rentable, dijo Bercovici, ya que todavía es un campo emergente. No existe un enfoque único. Trabajar exclusivamente en las instalaciones puede ser la opción correcta para algunos (especialmente los creadores de modelos de vanguardia), mientras que ser nativo de la cirro o ejecutarse en un entorno híbrido puede ser un mejor camino para las organizaciones que buscan innovar de modo ágil y receptiva. Independientemente del camino que elijan inicialmente, las organizaciones deberán adaptar su logística de infraestructura de IA a medida que evolucionen sus deyección comerciales.

"La pertenencias unitaria es lo que fundamentalmente importa aquí," dijo Bercovici. "Definitivamente estamos en un auge, o incluso en una burbuja, se podría opinar, en algunos casos, ya que la pertenencias subyacente de la IA está siendo subsidiada. Pero eso no significa que si los tokens se vuelven más caros, dejarás de usarlos. Simplemente obtendrá detalles muy finos en términos de cómo los usa."

Los líderes deberían centrarse menos en el precio de los tokens individuales y más en la pertenencias a nivel de transacción, donde la eficiencia y el impacto se vuelven visibles, concluye Bercovici.

La pregunta fundamental que deberían hacerse las empresas y las empresas de inteligencia industrial, dijo Bercovici, es “¿Cuál es el costo auténtico para la pertenencias de mi mecanismo?”

Gastado a través de esa cristal, el camino a seguir no se negociación de hacer menos con la IA, sino de hacerlo de modo más inteligente y competente a escalera.

Related Posts

Una hoja de ruta para la IA, si cualquiera quiere escuchar

Si correctamente la ruptura de Washington con Anthropic expuso la total yerro de reglas coherentes que gobiernen la inteligencia industrial, una coalición bipartidista de pensadores ha reunido poco que el…

Revisión de Ratcheteer DX: una pequeña aventura al estilo Zelda

Hay muchos juegos que intentan rivalizar. La inscripción de Zeldapero pocos logran capturar ese espíritu en un paquete tan pequeño y conciso como Trinquete DX. El repertorio postapocalíptico solo tarda…

You Missed

Una hoja de ruta para la IA, si cualquiera quiere escuchar

Una hoja de ruta para la IA, si cualquiera quiere escuchar

escuincle sin brazos sobresale académicamente – Noticiario SIN

escuincle sin brazos sobresale académicamente – Noticiario SIN

Dominicana enfrenta a Países Bajos, un remoto rival en el Clásico Mundial

Dominicana enfrenta a Países Bajos, un remoto rival en el Clásico Mundial

Revisión de Ratcheteer DX: una pequeña aventura al estilo Zelda

Revisión de Ratcheteer DX: una pequeña aventura al estilo Zelda

Abinader se sumará a cumbre de Trump en Miami este fin de semana

Abinader se sumará a cumbre de Trump en Miami este fin de semana

Advierten sobre industria online en dermatología sin título universitario necesario

Advierten sobre industria online en dermatología sin título universitario necesario