Realice envíos rápidos y optimice más tarde: a los mejores ingenieros de IA no les importa el costo: están priorizando la implementación

En todas las industrias, el aumento de los gastos de computación a menudo se cita como una barrera para la admisión de la IA, pero las empresas líderes están descubriendo que el costo ya no es la verdadera obstáculo. ¿Los desafíos más difíciles (y los que más preocupan a muchos líderes tecnológicos)? Latencia, flexibilidad y capacidad. En Preguntarsepor ejemplo, la IA añade unos pocos centavos por pedido; La empresa de entrega de alimentos y comida para resistir está mucho más preocupada por la capacidad de la estrato con demandas cada vez más altas. recursividadpor su parte, se ha centrado en equilibrar la capacitación y la implementación a pequeña y gran escalera a través de clústeres locales y la estrato; esto ha brindado a la empresa de biotecnología flexibilidad para una experimentación rápida. Las verdaderas experiencias de las empresas resaltan una tendencia más amplia de la industria: para las empresas que operan IA a escalera, la bienes no es el cifra fundamental secreto: la conversación ha pasado de cómo enriquecer por la IA a qué tan rápido puede implementarse y mantenerse. Los líderes de IA de las dos compañías se reunieron recientemente con el director ejecutor y editor en dirigente de Venturebeat, Matt Marshall, como parte de la expedición de VB. Serie de impacto de IA. Esto es lo que compartieron.

Pregunta: reconsidere lo que supone sobre la capacidad

Wonder utiliza IA para impulsar todo, desde recomendaciones hasta abastecimiento; sin incautación, a partir de ahora, informó el CTO James Chen, la IA agrega solo unos pocos centavos por pedido.

Chen explicó que el componente tecnológico de un pedido de comida cuesta 14 centavos, la IA agrega de 2 a 3 centavos, aunque “está subiendo muy rápidamente” a entre 5 y 8 centavos. Aún así, eso parece casi irrelevante en comparación con los costos operativos totales. En cambio, la principal preocupación de la empresa de IA 100% nativa de la estrato ha sido la capacidad con una demanda creciente. Wonder se construyó con “la suposición” (que resultó ser incorrecta) de que habría “capacidad ilimitada” para que pudieran moverse “súper rápido” y no tuvieran que preocuparse por establecer la infraestructura, señaló Chen. Pero la empresa ha crecido congruo en los últimos abriles, afirmó; Como resultado, hace unos seis meses, “comenzamos a cobrar pequeñas señales de los proveedores de la estrato, ‘Oye, quizás debas considerar ir a la región dos’”, porque se estaban quedando sin capacidad de CPU o almacenamiento de datos en sus instalaciones a medida que crecía la demanda. Fue “muy impactante” que tuvieran que sobrevenir al plan B antaño de lo previsto. “Obviamente es una buena maña ser multirregional, pero estábamos pensando que quizás interiormente de dos abriles más”, dijo Chen.

Lo que no es económicamente viable (todavía)

Wonder construyó su propio maniquí para maximizar su tasa de conversión, señaló Chen; El objetivo es mostrar nuevos restaurantes a los clientes relevantes tanto como sea posible. Se manejo de “escenarios aislados” en los que los modelos se entrenan con el tiempo para que sean “muy, muy eficientes y muy rápidos”. Actualmente, la mejor postura para el caso de uso de Wonder son los modelos grandes, señaló Chen. Pero a holgado plazo, les gustaría sobrevenir a modelos pequeños que estén hiperpersonalizados para las personas (a través de agentes de IA o conserjes) en función de su historial de compras e incluso de su flujo de clics. “Tener estos micromodelos es definitivamente lo mejor, pero en este momento el costo es muy elevado”, señaló Chen. “Si intentas crear uno para cada persona, simplemente no es económicamente viable”.

Hacer presupuestos es un arte, no una ciencia

Wonder ofrece a sus desarrolladores y científicos de datos todo el espacio posible para ensayar, y los equipos internos revisan los costos de uso para cerciorarse de que nadie active un maniquí y “aumente una computación masiva con una relación enorme”, dijo Chen. La empresa está probando diferentes cosas para sobrevenir a la IA y ejecutar interiormente de los márgenes. “Pero luego es muy difícil hacer un presupuesto porque no tienes idea”, dijo. Uno de los desafíos es el ritmo de crecimiento; cuando sale un nuevo maniquí, “no podemos quedarnos ahí sentados, ¿verdad? Tenemos que usarlo”. Presupuestar la bienes desconocida de un sistema basado en tokens es “definitivamente arte contra ciencia”. Un componente crítico en el ciclo de vida del crecimiento de software es preservar el contexto cuando se utilizan grandes modelos nativos, explicó. Cuando encuentre poco que funcione, puede agregarlo al “corpus de contexto” de su empresa que se puede mandar con cada solicitud. Eso es egregio y cuesta boleto cada vez. “Más del 50%, hasta el 80% de sus costos, consiste simplemente en reenviar la misma información al mismo motor en cada solicitud”, dijo Chen.

En teoría, cuanto más hagan debería requerirse menos coste por pelotón. “Sé que cuando se realice una transacción, pagaré el impuesto de X centavo por cada una, pero no quiero limitarme a usar la tecnología para todas estas otras ideas creativas."

El ‘momento de reivindicación’ de la recursividad

La recursión, por su parte, se ha centrado en satisfacer una amplia tono de deyección informáticas a través de una infraestructura híbrida de clústeres locales e inferencia en la estrato. Cuando inicialmente buscó construir su infraestructura de IA, la compañía tuvo que optar por su propia configuración, ya que “los proveedores de la estrato no tenían muchas buenas ofertas”, explicó el CTO Ben Mabey. “El momento de reivindicación fue que necesitábamos más computación y buscamos a los proveedores de la estrato y nos dijeron: ‘Tal vez en un año más o menos’”. El primer clúster de la compañía en 2017 incorporó GPU para juegos de Nvidia (1080, lanzadas en 2016); Desde entonces, agregaron Nvidia H100 y A100 y usan un clúster de Kubernetes que ejecutan en la estrato o localmente. Al acometer la cuestión de la duración, Mabey señaló: “Estas GPU para juegos en verdad todavía se utilizan hoy en día, lo cual es una psicosis, ¿verdad? El mito de que la vida útil de una GPU es de sólo tres abriles, definitivamente no es el caso. Las A100 siguen encabezando la cinta, son el heroína de batalla de la industria”.

Mejores casos de uso locales frente a la estrato; diferencias de costos

Más recientemente, el equipo de Mabey ha estado entrenando un maniquí sustancial en el repositorio de imágenes de Recursion (que consta de petabytes de datos y más de 200 imágenes). Este y otros tipos de grandes trabajos de capacitación han requerido un “clúster masivo” y configuraciones conectadas de múltiples nodos. “Cuando necesitamos esa red completamente conectada y golpe a una gran cantidad de nuestros datos en un sistema de archivos paralelo, lo hacemos localmente”, explicó. Por otro flanco, las cargas de trabajo más cortas se ejecutan en la estrato. El método de recursión consiste en “adelantarse” a las GPU y las unidades de procesamiento tensorial (TPU) de Google, que es el proceso de interrumpir las tareas de GPU en ejecución para trabajar en las de maduro prioridad. “Porque no nos importa la velocidad en algunas de estas cargas de trabajo de inferencia en las que cargamos datos biológicos, ya sea una imagen o datos de secuenciación, datos de ADN”, explicó Mabey. “Podemos afirmar: ‘Danos esto en una hora’, y estamos adecuadamente si eso acaba con el trabajo”. Desde una perspectiva de costos, trasladar grandes cargas de trabajo localmente es “conservadoramente” 10 veces más módico, señaló Mabey; para un TCO de cinco abriles, es la medio del costo. Por otro flanco, para deyección de almacenamiento más pequeñas, la estrato puede ser “congruo competitiva” en términos de costos. En última instancia, Mabey instó a los líderes tecnológicos a dar un paso antes y determinar si en realidad están dispuestos a comprometerse con la IA; Las soluciones rentables suelen requerir adquisiciones de varios abriles. “Desde una perspectiva psicológica, he trillado a nuestros pares que no invierten en computación y, como resultado, siempre pagan según demanda." dijo Mabey. "Sus equipos utilizan mucha menos computación porque no quieren aumentar la relación de la estrato. La innovación en realidad se ve obstaculizada por personas que no quieren pagar boleto”.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Realice envíos rápidos y optimice más tarde: a los mejores ingenieros de IA no les importa el costo: están priorizando la implementación

Pregunta: reconsidere lo que supone sobre la capacidad

Lo que no es económicamente viable (todavía)

Hacer presupuestos es un arte, no una ciencia

El ‘momento de reivindicación’ de la recursividad

Mejores casos de uso locales frente a la estrato; diferencias de costos

ztevenreal

Related Posts

HUAWEI Watch GT Runner 2 es el temporalizador inteligente “it” para maratonistas

El principal de robótica de OpenAI renuncia por el acuerdo con el Pentágono

You Missed

HUAWEI Watch GT Runner 2 es el temporalizador inteligente “it” para maratonistas

Ocho de cada 10 cáncer de ovario y endometrio son avanzados

Colombia celebra este domingo cruciales elecciones legislativas | AlMomento.net

Senador yanqui recorre verja fronteriza – Remolacha

Tipo que ingresó a 20,000 migrantes a EE.UU. se declara culpable – Remolacha

El principal de robótica de OpenAI renuncia por el acuerdo con el Pentágono