¿Su producto AI está funcionando en realidad? Cómo desarrollar el sistema métrico adecuado


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


En mi primer administrador de productos de educación espontáneo (ML), una pregunta simple inspiró debates apasionados entre funciones y líderes: ¿cómo sabemos si este producto en realidad está funcionando? El producto en cuestión que gestioné atendió a clientes internos y externos. El maniquí permitió a los equipos internos identificar los principales problemas que enfrentan nuestros clientes para poder priorizar el conjunto correcto de experiencias para solucionar los problemas de los clientes. Con una red de interdependencias tan compleja entre los clientes internos y externos, nominar las métricas adecuadas para capturar el impacto del producto fue fundamental para dirigirlo en torno a el éxito.

No rastrear si su producto funciona acertadamente es como aterrizar un avión sin instrucciones del control del tráfico ligero. No hay absolutamente ninguna guisa de tomar decisiones informadas para su cliente sin memorizar qué va acertadamente o mal. Por otra parte, si no define activamente las métricas, su equipo identificará sus propias métricas de respaldo. El aventura de tener múltiples sabores de una métrica de “precisión” o “calidad” es que todos desarrollarán su propia traducción, lo que lleva a un marco en el que no todos estén trabajando en torno a el mismo resultado.

Por ejemplo, cuando revisé mi objetivo anual y la métrica subyacente con nuestro equipo de ingeniería, la feedback inmediata fue: “Pero esta es una métrica comercial, ya rastreamos la precisión y el retentiva”.

Primero, identifique lo que quiere memorizar sobre su producto AI

Una vez que llegue a la tarea de explicar las métricas para su producto, ¿dónde comenzar? En mi experiencia, la complejidad de efectuar un producto ML con múltiples clientes se traduce en explicar métricas para el maniquí asimismo. ¿Qué uso para cronometrar si un maniquí funciona acertadamente? Cronometrar el resultado de los equipos internos para priorizar los lanzamientos basados ​​en nuestros modelos no sería lo suficientemente rápido; Cronometrar si el cliente adoptó soluciones recomendadas por nuestro maniquí podría arriesgarnos a sacar conclusiones de una métrica de apadrinamiento muy amplia (¿qué pasaría si el cliente no adoptara la alternativa porque solo quería asistir a un agente de soporte?).

Avance rápido a la era de los modelos de idiomas grandes (LLM): donde no solo tenemos una sola salida de un maniquí ML, asimismo tenemos respuestas de texto, imágenes y música como futuro. Las dimensiones del producto que requieren métricas ahora aumentan rápidamente (formatos, clientes, tipo … la serie continúa.

En todos mis productos, cuando trato de encontrar métricas, mi primer paso es destilar lo que quiero memorizar sobre su impacto en los clientes en algunas preguntas secreto. Identificar el conjunto correcto de preguntas hace que sea más comprensible identificar el conjunto correcto de métricas. Aquí hay algunos ejemplos:

  1. ¿El cliente obtuvo una salida? → Métrica para la cobertura
  2. ¿Cuánto tiempo tardó en el producto para proporcionar una salida? → Métrica para la latencia
  3. ¿Al beneficiario le gustó la salida? → Métricas para comentarios de los clientes, apadrinamiento y retención de clientes

Una vez que identifica sus preguntas secreto, el sucesivo paso es identificar un conjunto de subcuestiones para señales de ‘entrada’ y ‘salida’. Las métricas de salida son indicadores rezagados donde puede cronometrar un evento que ya ha sucedido. Las métricas de entrada y los indicadores principales se pueden usar para identificar tendencias o predecir los resultados. Vea a continuación las formas de asociar las subcuestiones correctas para rezagarse y liderar indicadores a las preguntas anteriores. No todas las preguntas deben tener indicadores de liderazgo/rezagado.

  1. ¿El cliente obtuvo una salida? → Cobertura
  2. ¿Cuánto tiempo tardó en el producto para proporcionar una salida? → Latencia
  3. ¿Al beneficiario le gustó la salida? → Comentarios de los clientes, apadrinamiento y retención del cliente
    1. ¿El beneficiario indicó que la salida es correcta/incorrecta? (producción)
    2. ¿La salida fue buena/torneo? (aporte)

El tercer y postrero paso es identificar el método para resumir métricas. La mayoría de las métricas se recopilan a escalera de una nueva instrumentación a través de la ingeniería de datos. Sin bloqueo, en algunos casos (como la pregunta 3 precedente), especialmente para los productos basados ​​en ML, tiene la opción de evaluaciones manuales o automatizadas que evalúan las futuro del maniquí. Si acertadamente siempre es mejor desarrollar evaluaciones automatizadas, comenzar con evaluaciones manuales para “la salida fue buena/torneo” y crear una rótulo para las definiciones de acertadamente, amoldonado y no bueno lo ayudará a sentar las bases para un proceso de evaluación automatizado riguroso y probado asimismo.

Ejemplo de casos de uso: búsqueda de IA, descripciones de lista

El situación precedente se puede aplicar a cualquier producto basado en ML para identificar la serie de métricas primarias para su producto. Tomemos la búsqueda como ejemplo.

Pregunta MétricaNaturaleza de la métrica
¿El cliente obtuvo una salida? → Cobertura% Sesiones de búsqueda con resultados de búsqueda mostrados al cliente
Producción
¿Cuánto tiempo tardó en el producto para proporcionar una salida? → LatenciaTiempo necesario para mostrar los resultados de búsqueda para el beneficiarioProducción
¿Al beneficiario le gustó la salida? → Comentarios de los clientes, apadrinamiento y retención del cliente

¿El beneficiario indicó que la salida es correcta/incorrecta? (Salida) ¿La salida fue buena/torneo? (Aporte)

% de las sesiones de búsqueda con comentarios de ‘pulgar en torno a en lo alto’ sobre los resultados de búsqueda del cliente o % de las sesiones de búsqueda con clics del cliente

% de los resultados de búsqueda marcados como ‘buenos/justos’ para cada término de búsqueda, por rótulo de calidad

Producción

Aporte

¿Qué tal un producto para suscitar descripciones para un lista (ya sea un medio ambiente de menú en Doordash o una serie de productos en Amazon)?

Pregunta MétricaNaturaleza de la métrica
¿El cliente obtuvo una salida? → Cobertura% Listados con descripción generada
Producción
¿Cuánto tiempo tardó en el producto para proporcionar una salida? → LatenciaTiempo necesario para suscitar descripciones al beneficiarioProducción
¿Al beneficiario le gustó la salida? → Comentarios de los clientes, apadrinamiento y retención del cliente

¿El beneficiario indicó que la salida es correcta/incorrecta? (Salida) ¿La salida fue buena/torneo? (Aporte)

% de listados con descripciones generadas que requerían ediciones del equipo de contenido técnico/mercader/cliente

% de las descripciones de lista marcadas como ‘buenas/justas’, por rótulo de calidad

Producción

Aporte

El enfoque descrito anteriormente es desplegable para múltiples productos basados ​​en ML. Espero que este situación le ayude a explicar el conjunto correcto de métricas para su maniquí ML.

Sharanya Rao es administrador de producto del camarilla en Intuitivo.


Related Posts

El Gyro y el Acelerómetro incorporado de GPU le indican si la maleable no está nivelado: Rog Astral GPU Battles Card Sag con función monitoreada de software

La límite de GPU insignia de ASUS, Rog Astral, recibió recientemente una nueva característica emplazamiento Instalación de equipos comprobación que permitió a los usuarios realizar si su costosa maleable gráfica…

Craft cms cero-día explotado para comprometer cientos de servidores vulnerables

Los investigadores descubrieron dos días cero de la severidad crítica en CMS CMS Supuestamente los delincuentes los encadenan para obtener entrada Unos 300 sitios ya fueron víctimas Los cibercriminales están…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

El Gyro y el Acelerómetro incorporado de GPU le indican si la maleable no está nivelado: Rog Astral GPU Battles Card Sag con función monitoreada de software

El Gyro y el Acelerómetro incorporado de GPU le indican si la maleable no está nivelado: Rog Astral GPU Battles Card Sag con función monitoreada de software

¡Atención! Se acerca una cachas profusión; 9 provincias en alerta.

¡Atención! Se acerca una cachas profusión; 9 provincias en alerta.

la tensa marcha de la AOD

la tensa marcha de la AOD

Pagos de sanidad superarán RD$125,000 MM en 2025

Pagos de sanidad superarán RD5,000 MM en 2025

Craft cms cero-día explotado para comprometer cientos de servidores vulnerables

Craft cms cero-día explotado para comprometer cientos de servidores vulnerables

Así se dio la caminata ‘Dale color a mi vida’ – Remolacha

Así se dio la caminata ‘Dale color a mi vida’ – Remolacha