Abrazando la cara: 5 formas en que las empresas pueden achicar los costos de IA sin ofrendar el rendimiento

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora

Las empresas parecen aceptarlo como un hecho cardinal: los modelos de IA requieren una cantidad significativa de enumeración; Simplemente tienen que encontrar formas de obtener más.

Pero no tiene por qué ser así, según Sasha Luccioni, AI y el líder del clima en Cara abrazada. ¿Qué pasa si hay una forma más inteligente de usar AI? ¿Qué pasaría si, en división de esforzarse por un calculador más (a menudo innecesario) y formas de alimentarlo, pueden centrarse en mejorar el rendimiento y la precisión del maniquí?

En última instancia, los fabricantes de modelos y las empresas se están centrando en el tema errado: deberían estar calculando más inteligenteno más difícil o haciendo más, dice Luccioni.

“Hay formas más inteligentes de hacer cosas que actualmente estamos subexplorando, porque estamos muy cegados: necesitamos más fracasos, necesitamos más GPU, necesitamos más tiempo”, dijo.

AI Scaling alcanza sus límites

Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:

Convertir la energía en una delantera estratégica

Edificación de inferencia eficaz para ganancias reales de rendimiento

Desbloquear ROI competitivo con sistemas de IA sostenibles

Asegure su división para mantenerse a la vanguardia: https://bit.ly/4mwgngo

Aquí hay cinco aprendizajes esencia de la cara abrazada que pueden ayudar a las empresas de todos los tamaños a usar IA de guisa más eficaz.

1: tamaño derecho del maniquí a la tarea

Evite el incumplimiento de modelos gigantes de propósito universal para cada caso de uso. Los modelos específicos de tareas o destilados pueden coincidir, o incluso aventajar los modelos más grandes en términos de precisión para cargas de trabajo específicas, a un costo beocio y con un consumo de energía estrecho.

Luccioni, de hecho, ha contrario en las pruebas que un maniquí específico de tareas usa 20 a 30 veces menos energía que uno de uso universal. “Adecuado a que es un maniquí que puede hacer esa tarea, en división de cualquier tarea que se contienda, lo cual a menudo es el caso con modelos de idiomas grandes”, dijo.

La destilación es esencia aquí; Inicialmente, un maniquí completo podría ser entrenado desde cero y luego refinado para una tarea específica. Deepseek R1, por ejemplo, es “tan espacioso que la mayoría de las organizaciones no pueden permitirse usarlo” porque necesita al menos 8 GPU, señaló Luccioni. Por el contrario, las versiones destiladas pueden ser 10, 20 o incluso 30x más pequeñas y pasar con una sola GPU.

En universal, los modelos de código hendido ayudan con la eficiencia, señaló, ya que no necesitan ser entrenados desde cero. Eso se compara con solo unos primaveras, cuando las empresas estaban desperdiciando bienes porque no podían encontrar el maniquí que necesitaban; Hoy en día, pueden comenzar con un maniquí colchoneta y ajustarlo y adaptarlo.

“Proporciona una innovación compartida incremental, a diferencia de los asados, la capacitación de todos sus modelos en sus conjuntos de datos y esencialmente desperdiciando el cálculo en el proceso”, dijo Luccioni.

Está quedando claro que las empresas se están desilusionando rápidamente con la Gestación AI, ya que los costos aún no son proporcionales a los beneficios. Los casos de uso genérico, como escribir correos electrónicos o transcribir notas de reuniones, son en realidad efectos. Sin bloqueo, los modelos específicos de la tarea aún requieren “mucho trabajo” porque los modelos listos para usar no lo cortan y además son más costosos, dijo Luccioni.

Esta es la próxima frontera de valía asociado. “Muchas empresas quieren que se realice una tarea específica”, señaló Luccioni. “No quieren a AGI, quieren inteligencia específica. Y esa es la brecha que necesita ser unida”.

2. Haga que la eficiencia sea el valía predeterminado

Adoptar la “teoría de empuje” en el diseño del sistema, establecer presupuestos de razonamiento conservadores, prohibir las características generativas siempre activas y requieren optar por modos de enumeración de detención costo.

En la ciencia cognitiva, la “teoría de empuje” es un enfoque de gobierno del cambio de comportamiento diseñado para influir sutilmente en el comportamiento humano. El “ejemplo canónico”, señaló Luccioni, está agregando cubiertos a la comida para transigir: hacer que las personas decidan si quieren utensilios de plástico, en división de incluirlos automáticamente con cada pedido, puede achicar significativamente el desperdicio.

“Simplemente conseguir que las personas opten por poco frente a optar por poco es en sinceridad un mecanismo muy poderoso para cambiar el comportamiento de las personas”, dijo Luccioni.

Los mecanismos predeterminados además son innecesarios, ya que aumentan el uso y, por lo tanto, los costos porque los modelos están haciendo más trabajo del que necesitan. Por ejemplo, con motores de búsqueda populares como Google, un síntesis de Gen AI se llena automáticamente en la parte superior de forma predeterminada. Luccioni además señaló que, cuando recientemente usó GPT-5 de OpenAI, el maniquí funcionó automáticamente en modo de razonamiento completo en “preguntas muy simples”.

“Para mí, debería ser la excepción”, dijo. “Como, ‘¿Cuál es el significado de la vida, entonces seguro, quiero un síntesis de Gen Ai’? Pero con ‘¿Cómo es el clima en Montreal’ o ‘¿Cuáles son las horas de comprensión de mi apoteca circunscrito?’ No necesito un síntesis de IA generativo, pero es el valía predeterminado.

3. Optimizar la utilización de hardware

Usar lotes; Ajuste los tamaños de precisión y lotes de ajuste fino para una concepción específica de hardware para minimizar la memoria desperdiciada y el sorteo.

Por ejemplo, las empresas deberían preguntarse: ¿el maniquí debe estar en todo el tiempo? ¿La clan lo estará haciendo sonar en tiempo verdadero, 100 solicitudes a la vez? En ese caso, la optimización siempre encendida es necesaria, señaló Luccioni. Sin bloqueo, en muchos otros, no lo es; El maniquí se puede ejecutar periódicamente para optimizar el uso de la memoria, y los lotes pueden avalar una utilización óptima de la memoria.

“Es como un desafío de ingeniería, pero muy específico, por lo que es difícil sostener: ‘Solo destila todos los modelos’ o ‘cambia la precisión en todos los modelos'”, dijo Luccioni.

En uno de sus estudios recientes, descubrió que el tamaño del gajo depende del hardware, incluso hasta el tipo o interpretación específica. Producirse de un tamaño por lotes a Plus-One puede aumentar el uso de energía porque los modelos necesitan más barras de memoria.

“Esto es poco que la clan en realidad no mira, simplemente dicen: ‘Oh, voy a maximizar el tamaño del gajo’, pero en realidad se reduce a ajustar todas estas cosas diferentes, y de repente es súper eficaz, pero solo funciona en su contexto específico”, explicó Luccioni.

4. Incentivar la transparencia energética

Siempre ayuda cuando las personas son incentivadas; Para este fin, se lanzó la cara abrazada a principios de este año Puntuación de energía AI. Es una forma novedosa de promover más eficiencia energética, utilizando un sistema de calificación de 1 a 5 estrellas, con los modelos más eficientes que obtienen un estado de “cinco estrellas”.

Podría considerarse la “Destino de Energía para la IA”, y se inspiró en el software federal potencialmente-soon-be-Da-Faund, que establece especificaciones de eficiencia energética y electrodomésticos de calificación de marca con un logotipo de Energy Star.

“Durante un par de décadas, fue en realidad una motivación positiva, la clan quería esa calificación de estrellas, ¿verdad?”, Dijo Luccioni. “Poco similar con la puntuación de energía sería magnífico”.

Abrazar la cara tiene un tabla de clasificación ahoraque planea desempolvar con nuevos modelos (Deepseek, GPT-OSS) en septiembre, y continuamente hacerlo cada 6 meses o ayer a medida que estén disponibles nuevos modelos. El objetivo es que los constructores de modelos consideren la calificación como una “insignia de honor”, dijo Luccioni.

5. Repensar la mentalidad de “más enumeración es mejor”

En división de perseguir los grupos de GPU más grandes, comience con la pregunta: “¿Cuál es la forma más inteligente de conseguir el resultado?” Para muchas cargas de trabajo, las arquitecturas más inteligentes y los datos mejor curados superan a la escalera de fuerza bruta.

“Creo que las personas probablemente no necesitan tantas GPU como creen que lo hacen”, dijo Luccioni. En división de simplemente ir por los grupos más grandes, instó a las empresas a repensar las tareas que las GPU se completarán y por qué los necesitan, cómo realizaron ese tipo de tareas ayer y qué asociar GPU adicionales finalmente los obtendrá.

“Es una especie de esta carrera en dirección a el fondo donde necesitamos un corro más espacioso”, dijo. “Es pensar en lo que estás usando AI, ¿para qué técnica necesitas, qué requiere eso?”

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu presidente, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.