¿Su producto AI está funcionando en realidad? Cómo desarrollar el sistema métrico adecuado

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información

En mi primer administrador de productos de educación espontáneo (ML), una pregunta simple inspiró debates apasionados entre funciones y líderes: ¿cómo sabemos si este producto en realidad está funcionando? El producto en cuestión que gestioné atendió a clientes internos y externos. El maniquí permitió a los equipos internos identificar los principales problemas que enfrentan nuestros clientes para poder priorizar el conjunto correcto de experiencias para solucionar los problemas de los clientes. Con una red de interdependencias tan compleja entre los clientes internos y externos, nominar las métricas adecuadas para capturar el impacto del producto fue fundamental para dirigirlo en torno a el éxito.

No rastrear si su producto funciona acertadamente es como aterrizar un avión sin instrucciones del control del tráfico ligero. No hay absolutamente ninguna guisa de tomar decisiones informadas para su cliente sin memorizar qué va acertadamente o mal. Por otra parte, si no define activamente las métricas, su equipo identificará sus propias métricas de respaldo. El aventura de tener múltiples sabores de una métrica de “precisión” o “calidad” es que todos desarrollarán su propia traducción, lo que lleva a un marco en el que no todos estén trabajando en torno a el mismo resultado.

Por ejemplo, cuando revisé mi objetivo anual y la métrica subyacente con nuestro equipo de ingeniería, la feedback inmediata fue: “Pero esta es una métrica comercial, ya rastreamos la precisión y el retentiva”.

Primero, identifique lo que quiere memorizar sobre su producto AI

Una vez que llegue a la tarea de explicar las métricas para su producto, ¿dónde comenzar? En mi experiencia, la complejidad de efectuar un producto ML con múltiples clientes se traduce en explicar métricas para el maniquí asimismo. ¿Qué uso para cronometrar si un maniquí funciona acertadamente? Cronometrar el resultado de los equipos internos para priorizar los lanzamientos basados en nuestros modelos no sería lo suficientemente rápido; Cronometrar si el cliente adoptó soluciones recomendadas por nuestro maniquí podría arriesgarnos a sacar conclusiones de una métrica de apadrinamiento muy amplia (¿qué pasaría si el cliente no adoptara la alternativa porque solo quería asistir a un agente de soporte?).

Avance rápido a la era de los modelos de idiomas grandes (LLM): donde no solo tenemos una sola salida de un maniquí ML, asimismo tenemos respuestas de texto, imágenes y música como futuro. Las dimensiones del producto que requieren métricas ahora aumentan rápidamente (formatos, clientes, tipo … la serie continúa.

En todos mis productos, cuando trato de encontrar métricas, mi primer paso es destilar lo que quiero memorizar sobre su impacto en los clientes en algunas preguntas secreto. Identificar el conjunto correcto de preguntas hace que sea más comprensible identificar el conjunto correcto de métricas. Aquí hay algunos ejemplos:

¿El cliente obtuvo una salida? → Métrica para la cobertura
¿Cuánto tiempo tardó en el producto para proporcionar una salida? → Métrica para la latencia
¿Al beneficiario le gustó la salida? → Métricas para comentarios de los clientes, apadrinamiento y retención de clientes

Una vez que identifica sus preguntas secreto, el sucesivo paso es identificar un conjunto de subcuestiones para señales de ‘entrada’ y ‘salida’. Las métricas de salida son indicadores rezagados donde puede cronometrar un evento que ya ha sucedido. Las métricas de entrada y los indicadores principales se pueden usar para identificar tendencias o predecir los resultados. Vea a continuación las formas de asociar las subcuestiones correctas para rezagarse y liderar indicadores a las preguntas anteriores. No todas las preguntas deben tener indicadores de liderazgo/rezagado.

¿El cliente obtuvo una salida? → Cobertura
¿Cuánto tiempo tardó en el producto para proporcionar una salida? → Latencia
¿Al beneficiario le gustó la salida? → Comentarios de los clientes, apadrinamiento y retención del cliente
1. ¿El beneficiario indicó que la salida es correcta/incorrecta? (producción)
2. ¿La salida fue buena/torneo? (aporte)

El tercer y postrero paso es identificar el método para resumir métricas. La mayoría de las métricas se recopilan a escalera de una nueva instrumentación a través de la ingeniería de datos. Sin bloqueo, en algunos casos (como la pregunta 3 precedente), especialmente para los productos basados en ML, tiene la opción de evaluaciones manuales o automatizadas que evalúan las futuro del maniquí. Si acertadamente siempre es mejor desarrollar evaluaciones automatizadas, comenzar con evaluaciones manuales para “la salida fue buena/torneo” y crear una rótulo para las definiciones de acertadamente, amoldonado y no bueno lo ayudará a sentar las bases para un proceso de evaluación automatizado riguroso y probado asimismo.

Ejemplo de casos de uso: búsqueda de IA, descripciones de lista

El situación precedente se puede aplicar a cualquier producto basado en ML para identificar la serie de métricas primarias para su producto. Tomemos la búsqueda como ejemplo.

Pregunta	Métrica	Naturaleza de la métrica
¿El cliente obtuvo una salida? → Cobertura	% Sesiones de búsqueda con resultados de búsqueda mostrados al cliente	Producción
¿Cuánto tiempo tardó en el producto para proporcionar una salida? → Latencia	Tiempo necesario para mostrar los resultados de búsqueda para el beneficiario	Producción
¿Al beneficiario le gustó la salida? → Comentarios de los clientes, apadrinamiento y retención del cliente ¿El beneficiario indicó que la salida es correcta/incorrecta? (Salida) ¿La salida fue buena/torneo? (Aporte)	% de las sesiones de búsqueda con comentarios de ‘pulgar en torno a en lo alto’ sobre los resultados de búsqueda del cliente o % de las sesiones de búsqueda con clics del cliente % de los resultados de búsqueda marcados como ‘buenos/justos’ para cada término de búsqueda, por rótulo de calidad	Producción Aporte

¿Qué tal un producto para suscitar descripciones para un lista (ya sea un medio ambiente de menú en Doordash o una serie de productos en Amazon)?

Pregunta	Métrica	Naturaleza de la métrica
¿El cliente obtuvo una salida? → Cobertura	% Listados con descripción generada	Producción
¿Cuánto tiempo tardó en el producto para proporcionar una salida? → Latencia	Tiempo necesario para suscitar descripciones al beneficiario	Producción
¿Al beneficiario le gustó la salida? → Comentarios de los clientes, apadrinamiento y retención del cliente ¿El beneficiario indicó que la salida es correcta/incorrecta? (Salida) ¿La salida fue buena/torneo? (Aporte)	% de listados con descripciones generadas que requerían ediciones del equipo de contenido técnico/mercader/cliente % de las descripciones de lista marcadas como ‘buenas/justas’, por rótulo de calidad	Producción Aporte

El enfoque descrito anteriormente es desplegable para múltiples productos basados en ML. Espero que este situación le ayude a explicar el conjunto correcto de métricas para su maniquí ML.

Sharanya Rao es administrador de producto del camarilla en Intuitivo.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu caudillo, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.