El surgimiento de OPS rápidos: enfrentarse los costos de IA ocultos de los malos insumos y la hinchazón de contexto

Este artículo es parte del número distinto de VentureBeat, “El costo actual de la IA: rendimiento, eficiencia y ROI a escalera”. Lea más de este número distinto.

Los proveedores de modelos continúan lanzando modelos de habla excelso cada vez más sofisticados (LLM) con ventanas de contexto más largas y capacidades de razonamiento mejoradas.

Esto permite que los modelos procesen y “piensen” más, pero asimismo aumenta el cálculo: cuanto más se acelera y se presenta un maniquí, más energía gasta y más mayores serán los costos.

Combine esto con todos los rayos involucrados con la solicitud (puede tomar algunos intentos para conseguir al resultado previsto, y a veces la pregunta en cuestión simplemente no necesita un maniquí que pueda pensar como un doctorado, y el pago de cálculo puede salir de control.

Esto está dando extensión a OPS rápidos, una disciplina completamente nueva en la años de AI.

“La ingeniería rápida es como escribir, la creación actual, mientras que la operación rápida es como anunciar, donde está evolucionando el contenido”, Crawford del Prete, IDC Presidente, dijo a VentureBeat. “El contenido está vivo, el contenido está cambiando y desea comprobar de que lo está refinando con el tiempo”.

El desafío del uso y el costo de calcular

El uso y el costo de calcular son dos “conceptos relacionados pero separados” en el contexto de LLMS, explicó David Emerson, verificado superpuesto en el Instituto vectorial. En universal, los usuarios de precios pagan escalas en función del número de tokens de entrada (lo que el sucesor indica) y el número de tokens de salida (lo que ofrece el maniquí). Sin confiscación, no se cambian para acciones detrás de panorama como meta promptas, instrucciones de dirección o engendramiento acuática de recuperación (RAG).

Si correctamente el contexto más derrochador permite que los modelos procesen mucho más texto a la vez, se traduce directamente en significativamente más fracasos (una medición del poder de cálculo), explicó. Algunos aspectos de los modelos de transformadores incluso se escalan cuadráticamente con la largura de entrada si no se gestionan correctamente. Las respuestas innecesariamente largas asimismo pueden detener el tiempo de procesamiento y requerir cuenta adicional y costo para construir y prolongar algoritmos para el procesamiento posterior a las respuestas en la respuesta que los usuarios esperaban.

Por lo universal, los entornos de contexto más largos incentivan a los proveedores a entregar respuestas detalladas deliberadamente, dijo Emerson. Por ejemplo, muchos modelos de razonamiento más pesados ​​(O3 u O1 de OpenAI, por ejemplo) a menudo proporcionarán respuestas largas incluso a preguntas simples, incurriendo en costos informáticos pesados.

Aquí hay un ejemplo:

Aporte: Responda el futuro problema de matemáticas. Si tengo 2 manzanas y compro 4 más en el Almacene posteriormente de yantar 1, ¿cuántas manzanas tengo?

Producción: Si como 1, solo me queda 1. Tendría 5 manzanas si compro 4 más.

El maniquí no solo generó más tokens de lo que era necesario, sino que enterró su respuesta. Es posible que un ingeniero tenga que diseñar una forma programática de extraer la respuesta final o hacer preguntas de seguimiento como ‘¿Cuál es su respuesta final?’ que incurren aún en costos de API.

Alternativamente, el aviso podría rediseñarse para conducir el maniquí para producir una respuesta inmediata. Por ejemplo:

Aporte: Responda el futuro problema de matemáticas. Si tengo 2 manzanas y compro 4 más en THmi Almacene posteriormente de yantar 1, ¿cuántas manzanas tengo? Comience su respuesta con “La respuesta es” …

O:

Aporte: Responda el futuro problema de matemáticas. Si tengo 2 manzanas y compro 4 más en la tienda posteriormente de yantar 1, ¿cuántas manzanas tengo? Envuelva su respuesta final en etiquetas en negrita .

“La forma en que se hace la pregunta puede ceñir el esfuerzo o el costo para conseguir a la respuesta deseada”, dijo Emerson. Además señaló que las técnicas como pocos disparos (proporcionar algunos ejemplos de lo que el sucesor exploración) pueden ayudar a producir futuro más rápidas.

Un peligro es no enterarse cuándo utilizar técnicas sofisticadas como la impulso de la sujeción de pensamiento (COT) (suscitar respuestas en los pasos) o el autoinscinamiento, lo que alienta directamente a los modelos a producir muchos tokens o producirse por varias iteraciones al suscitar respuestas, señaló Emerson.

No todas las consultas requieren un maniquí para analizar y retornar a analizar antiguamente de proporcionar una respuesta, enfatizó; Podrían ser perfectamente capaces de contestar correctamente cuando se les indica que responda directamente. Encima, las configuraciones de API incorrectas (como OpenAI O3, que requiere un esfuerzo de razonamiento suspensión) incurrirá en costos más altos cuando una solicitud más devaluación y más ocasión sea suficiente.

“Con contextos más largos, los usuarios asimismo pueden estar tentados a usar un enfoque de ‘todo menos el fregadero de la cocina’, donde descarta el anciano texto posible en un contexto maniquí con la esperanza de que hacerlo ayude al maniquí a realizar una tarea con anciano precisión”, dijo Emerson. “Si correctamente más contexto puede ayudar a los modelos a realizar tareas, no siempre es el mejor o más valioso enfoque”.

Progreso para impulsar OPS

No es un gran secreto que la infraestructura optimizada de AI-AI-A-INA pueda ser difícil de conseguir en estos días; Del Prete de IDC señaló que las empresas deben poder minimizar la cantidad de tiempo de inactividad de GPU y satisfacer más consultas en ciclos inactivos entre las solicitudes de GPU.

“¿Cómo exprimo más de estos productos muy, muy preciosos?”, Señaló. “Porque tengo que obtener la utilización de mi sistema, porque simplemente no tengo el beneficio de simplemente arrojar más capacidad al problema”.

Los OP de inmediato pueden contribuir en gran medida a enfrentarse este desafío, ya que finalmente administra el ciclo de vida del aviso. Si correctamente la ingeniería rápida se proxenetismo de la calidad de la solicitud rápida, OPS es donde repite, explicó Del Prete.

“Es más orquestación”, dijo. “Pienso en ello como la curación de preguntas y la curación de cómo interactúas con la IA para asegurarte de que estás aprovechando al mayor”.

Los modelos pueden tender a ser “fatigados”, ciclando en bucles donde la calidad de las futuro se degrada, dijo. Los OP de inmediato ayudan a dirigir, cronometrar, monitorear y ajustar las indicaciones. “Creo que cuando miremos cerca de a espaldas adentro de tres o cuatro abriles, será una disciplina completa. Será una sagacidad”.

Si correctamente todavía es en gran medida un campo emergente, los primeros proveedores incluyen Querypal, rápido, rechazo y truelles. A medida que evolucionan las operaciones rápidas, estas plataformas continuarán iterando, mejorando y ofrecer comentarios en tiempo actual para dar a los usuarios más capacidad para ajustar las indicaciones con el tiempo, señaló Dep Prete.

Finalmente, predijo que los agentes podrán sintonizar, escribir y distribuir indicaciones por su cuenta. “El nivel de automatización aumentará, el nivel de interacción humana disminuirá, podrá tener agentes que operen de forma más autónoma en las indicaciones que están creando”.

Errores comunes de impulso

Hasta que el aviso OPS se realice plenamente, en última instancia no hay un aviso consumado. Algunos de los errores más grandes que cometen la clan, según Emerson:

  • No ser lo suficientemente específico sobre el problema para resolverse. Esto incluye cómo el sucesor quiere que el maniquí proporcione su respuesta, lo que debe considerarse al contestar, las limitaciones para tener en cuenta y otros factores. “En muchos entornos, los modelos necesitan una buena cantidad de contexto para proporcionar una respuesta que cumpla con las expectativas de los usuarios”, dijo Emerson.
  • No tener en cuenta las formas en que se puede simplificar un problema para ceñir el resonancia de la respuesta. ¿Debería la respuesta estar adentro de cierto rango (0 a 100)? ¿Debería redactar la respuesta como un problema de opción múltiple en extensión de poco rajado? ¿Puede el sucesor proporcionar buenos ejemplos para contextualizar la consulta? ¿Se puede dividir el problema en pasos para consultas separadas y simples?
  • No disfrutar la estructura. Los LLM son muy buenos en el gratitud de patrones, y muchos pueden entender el código. Si correctamente el uso de puntos de bala, las listas detalladas o los indicadores audaces (****) pueden parecer “un poco desordenados” a los fanales humanos, señaló Emerson, estos llamados pueden ser beneficiosos para un LLM. Pedir futuro estructuradas (como JSON o Markdown) asimismo puede ayudar cuando los usuarios buscan procesar las respuestas automáticamente.

Hay muchos otros factores a considerar en el mantenimiento de una tubería de producción, basada en las mejores prácticas de ingeniería, señaló Emerson. Estos incluyen:

  • Comprobar de que el rendimiento de la tubería permanezca consistente;
  • Monitorear el rendimiento de las indicaciones a lo derrochador del tiempo (potencialmente en un conjunto de nervio);
  • Configuración de pruebas y detección de advertencia temprana para identificar problemas de tuberías.

Los usuarios asimismo pueden disfrutar las herramientas diseñadas para aposentar el proceso de solicitud. Por ejemplo, la fuente abierta Dspy Puede configurar y optimizar automáticamente las indicaciones para las tareas aguas debajo en función de algunos ejemplos etiquetados. Si correctamente este puede ser un ejemplo congruo sofisticado, hay muchas otras ofertas (incluidas algunas integradas en herramientas como ChatGPT, Google y otros) que pueden ayudar en un diseño rápido.

Y en última instancia, Emerson dijo: “Creo que una de las cosas más simples que los usuarios pueden hacer es tratar de mantenerse al día con los enfoques de impulso efectivos, los desarrollos de modelos y las nuevas formas de configurar e interactuar con los modelos”.

Related Posts

El agente de IA deshonesto de Meta pasó todos los controles de identidad: cuatro lagunas en la IAM empresarial explican el motivo

Un agente de inteligencia fabricado deshonesto en Meta tomó medidas sin aprobación y datos confidenciales de la empresa y del becario expuestos a empleados que no estaban autorizados a penetrar…

5 remakes de ciencia ficción que fueron mejores que la película innovador

Medios estáticos / Nick Staniforth Los remakes son como palomitas de maíz rancias. Es probable que no lo disfrutes, pero la curiosidad…

You Missed

Ocupación Divulgado apelará “no ha circunscripción” en caso Jean Andrés Pumarol

Ocupación Divulgado apelará “no ha circunscripción” en caso Jean Andrés Pumarol

Omar Fernández propone eliminar impuesto que encarece préstamos hipotecarios

Omar Fernández propone eliminar impuesto que encarece préstamos hipotecarios

El agente de IA deshonesto de Meta pasó todos los controles de identidad: cuatro lagunas en la IAM empresarial explican el motivo

El agente de IA deshonesto de Meta pasó todos los controles de identidad: cuatro lagunas en la IAM empresarial explican el motivo

Misil israelí alcanza equipo periodístico (video) – Remolacha

Misil israelí alcanza equipo periodístico (video) – Remolacha

Presidente del Indotel exhorta a priorizar formación digital y ciberseguridad

Presidente del Indotel exhorta a priorizar formación digital y ciberseguridad

Carolina Mejía fuego a obtener la nueva osadía de conducir | AlMomento.net

Carolina Mejía fuego a obtener la nueva osadía de conducir | AlMomento.net