Por qué fallan los sistemas de trapo empresarial: el estudio de Google presenta una decisión de ‘contexto suficiente’


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


A nuevo estudio de Google Los investigadores introducen “contexto suficiente”, una perspectiva novedosa para comprender y mejorar los sistemas de reproducción aumentada de recuperación (RAG) en modelos de idiomas grandes (LLM).

Este enfoque permite determinar si un LLM tiene suficiente información para reponer con precisión una consulta, un factótum crítico para los desarrolladores que construyen aplicaciones empresariales del mundo vivo donde la confiabilidad y la corrección objetiva son primordiales.

Los desafíos persistentes del trapo

Los sistemas RAG se han convertido en una piedra angular para construir aplicaciones de IA más objetivas y verificables. Sin secuestro, estos sistemas pueden exhibir rasgos indeseables. Podrían proporcionar con confianza respuestas incorrectas incluso cuando se les presenta evidencia recuperada, distraerse con información irrelevante en el contexto o no extraer respuestas de los fragmentos de texto largos correctamente.

Los investigadores afirman en su artículo: “El resultado ideal es que la LLM genere la respuesta correcta si el contexto proporcionado contiene suficiente información para reponer la pregunta cuando se combina con el conocimiento paramétrico del maniquí. De lo contrario, el maniquí debe desinteresarse de reponer y/o pedir más información”.

Alcanzar este tablas ideal requiere construir modelos que puedan determinar si el contexto proporcionado puede ayudar a reponer una pregunta correctamente y usarla selectivamente. Los intentos anteriores de tocar esto han examinado cómo se comportan los LLM con diversos grados de información. Sin secuestro, el documento de Google argumenta que “Si acertadamente el objetivo parece ser comprender cómo se comportan los LLM cuando tienen o no suficiente información para reponer a la consulta, el trabajo preparatorio no puede tocar este de frente”.

Contexto suficiente

Para tocar esto, los investigadores introducen el concepto de “contexto suficiente”. En un stop nivel, las instancias de entrada se clasifican en función de si el contexto proporcionado contiene suficiente información para reponer a la consulta. Esto divide los contextos en dos casos:

Contexto suficiente: El contexto tiene toda la información necesaria para proporcionar una respuesta definitiva.

Contexto insuficiente: El contexto carece de la información necesaria. Esto podría deberse a que la consulta requiere un conocimiento especializado que no esté presente en el contexto, o la información es incompleta, no concluyente o contradictoria.

Fuente: Arxiv

Esta designación se determina observando la pregunta y el contexto asociado sin obligación de una respuesta de verdad en tierra. Esto es esencial para aplicaciones del mundo vivo donde las respuestas de verdad en tierra no están disponibles durante la inferencia.

Los investigadores desarrollaron un “Autorizador” basado en LLM para automatizar el etiquetado de las instancias como un contexto suficiente o insuficiente. Descubrieron que el maniquí Gemini 1.5 Pro de Google, con un solo ejemplo (1-SHOT), se desempeñó mejor en la clasificación de la suficiencia del contexto, logrando puntajes y precisión F1 altas.

El documento señala: “En escenarios del mundo vivo, no podemos esperar respuestas candidatas al evaluar el rendimiento del maniquí. Por lo tanto, es deseable usar un método que funcione usando solo la consulta y el contexto”.

Hallazgos esencia sobre el comportamiento de LLM con trapo

Analizar varios modelos y conjuntos de datos a través de esta telescopio de contexto suficiente reveló varias ideas importantes.

Como se esperaba, los modelos generalmente logran una viejo precisión cuando el contexto es suficiente. Sin secuestro, incluso con un contexto suficiente, los modelos tienden a delirar con más frecuencia de lo que se abstienen. Cuando el contexto es insuficiente, la situación se vuelve más compleja, con modelos que exhiben tasas de renuncia más altas y, para algunos modelos, una viejo espejismo.

Curiosamente, si acertadamente RAG generalmente mejoría el rendimiento militar, el contexto adicional además puede someter la capacidad de un maniquí para desinteresarse de reponer cuando no tiene suficiente información. “Este aberración puede surgir de la viejo confianza del maniquí en la presencia de cualquier información contextual, lo que lleva a una viejo propensión a la espejismo en zona de la renuncia”, sugieren los investigadores.

Una observación particularmente curiosa era la capacidad de los modelos a veces para proporcionar respuestas correctas incluso cuando el contexto proporcionado se consideraba insuficiente. Si acertadamente una suposición natural es que los modelos ya “saben” la respuesta de su pre-entrenamiento (conocimiento paramétrico), los investigadores encontraron otros factores contribuyentes. Por ejemplo, el contexto podría ayudar a desambiguar una consulta o cumplimentar brechas en el conocimiento del maniquí, incluso si no contiene la respuesta completa. Esta capacidad de los modelos a veces tiene éxito incluso con información externa limitada tiene implicaciones más amplias para el diseño del sistema RAG.

Fuente: Arxiv

Cyrus Rashtchian, coautor del estudio y verificado de investigación senior de Google, explica esto, enfatizando que la calidad de la saco de LLM sigue siendo crítica. “Para un sistema de trapo empresarial verdaderamente bueno, el maniquí debe evaluarse en puntos de remisión con y sin recuperación”, dijo a VentureBeat. Sugirió que la recuperación debería hallarse como “aumento de su conocimiento”, en zona de la única fuente de verdad. El maniquí saco, explica, “aún necesita satisfacer los vacíos o usar pistas de contexto (que están informadas por el conocimiento previo al entrenamiento) para razonar adecuadamente sobre el contexto recuperado. Por ejemplo, el maniquí debe entender lo suficiente para entender si la pregunta está bajo especificada o ambigua, en zona de copiar ciegamente el contexto”.

Reducción de alucinaciones en sistemas de trapo

Legado el hallazgo de que los modelos pueden delirar en zona de desinteresarse, especialmente con RAG en comparación con el entorno de RAG, los investigadores exploraron técnicas para mitigar esto.

Desarrollaron un nuevo situación de “reproducción selectiva”. Este método utiliza un “maniquí de intervención” más pequeño y separado para arriesgarse si el LLM principal debe ocasionar una respuesta o desinteresarse, ofreciendo una compensación controlable entre precisión y cobertura (el porcentaje de preguntas respondidas).

Este situación se puede combinar con cualquier LLM, incluidos modelos patentados como Gemini y GPT. El estudio encontró que usar un contexto suficiente como una señal adicional en este situación conduce a una precisión significativamente viejo para consultas respondidas en varios modelos y conjuntos de datos. Este método mejoró la fracción de las respuestas correctas entre las respuestas del maniquí en un 2–10% para los modelos Gemini, GPT y Gemma.

Para poner esta mejoría del 2-10% en una perspectiva comercial, Rashtchian ofrece un ejemplo concreto de AI de atención al cliente. “Se podría imaginar a un cliente preguntando si puede tener un descuento”, dijo. “En algunos casos, el contexto recuperado es nuevo y describe específicamente una promoción continua, por lo que el maniquí puede reponer con confianza. Pero en otros casos, el contexto podría ser” obsoleto “, describiendo un descuento de hace unos meses, o tal vez tiene términos y condiciones específicos. Por lo tanto, sería mejor para el maniquí sostener,” no estoy seguro “o” Debería dialogar con un agente de apoyo al cliente para obtener más información para su caso específico para su caso específico “.”

El equipo además investigó modelos ajustados para fomentar la renuncia. Esto implicó modelos de entrenamiento en ejemplos en los que la respuesta fue reemplazada por “No sé” en zona de la verdadera verdadera, particularmente para instancias con contexto insuficiente. La intuición era que el entrenamiento palmario en tales ejemplos podría dirigir el maniquí para desinteresarse en zona de delirar.

Los resultados fueron mixtos: los modelos ajustados a menudo tenían una viejo tasa de respuestas correctas pero aún alucinadas con frecuencia, a menudo más de lo que se abstenían. El documento concluye que si acertadamente el ajuste podría ayudar, “se necesita más trabajo para desarrollar una táctica confiable que pueda equilibrar estos objetivos”.

Aplicar un contexto suficiente a los sistemas de trapo del mundo vivo

Para los equipos empresariales que buscan aplicar estas ideas a sus propios sistemas de trapo, como aquellos que impulsan las bases de conocimiento interno o la IA de atención al cliente, Rashtchian describe un enfoque práctico. Sugiere primero la colección de un conjunto de datos de pares de consulta que representan el tipo de ejemplos que el maniquí verá en la producción. A continuación, use un Autorater basado en LLM para etiquetar que cada ejemplo tenga un contexto suficiente o insuficiente.

“Esto ya dará una buena estimación del % del contexto suficiente”, dijo Rashtchian. “Si es inferior al 80-90%, es probable que haya mucho espacio para mejorar el flanco de la saco de recuperación o de conocimiento de las cosas, este es un buen signo observable”.

Rashtchian aconseja a los equipos que “estratifiquen las respuestas del maniquí basadas en ejemplos con un contexto suficiente contra insuficiente”. Al examinar las métricas en estos dos conjuntos de datos separados, los equipos pueden comprender mejor los matices de rendimiento.

“Por ejemplo, vimos que los modelos tenían más probabilidades de proporcionar una respuesta incorrecta (con respecto a la verdad del suelo) cuando se les da un contexto insuficiente. Este es otro signo observable”, señala que “la agregación de estadísticas sobre un conjunto de datos completo puede ocurrir por stop un pequeño conjunto de consultas importantes pero mal manejadas”.

Mientras que un autórico con sede en LLM demuestra una reincorporación precisión, los equipos empresariales podrían preguntarse sobre el costo computacional adicional. Rashtchian aclaró que la sobrecarga se puede manejar con fines de diagnosis.

“Diría que ejecutar un autorizador basado en LLM en un pequeño conjunto de pruebas (digamos 500-1000 ejemplos) debería ser relativamente crematístico, y esto se puede hacer” fuera de serie “, por lo que no se preocupe por la cantidad de tiempo que lleva”, dijo. Para aplicaciones en tiempo vivo, reconoce: “Sería mejor usar un maniquí heurístico o al menos un maniquí más pequeño”. La conclusión crucial, según Rashtchian, es que “los ingenieros deberían estar mirando poco más allá de los puntajes de similitud, etc., de su componente de recuperación. Tener una señal adicional, de un LLM o una heurística, puede conducir a nuevas ideas”.


Related Posts

Estas son mis 15 mejores ofertas favoritas del Día de los Caídos y al viento excarcelado en este momento

¿Cuándo es el Día de los Caídos? El Día de los Caídos en los Estados Unidos es el lunes 26 de mayo. Y si aceptablemente la anciano parte de las…

Escúchame: esta extraña serie de nataciones para adultos es uno de los mejores espectáculos de ciencia ficción del año

Necesito reconocer poco de inmediato: no soy un gran fanático de la animación. Eso sí, puedo ver cualquier cantidad de programas animados. Pero he llegado a entender que me resisto…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Diputado Jhon Contreras felicita a las madres de Monte Plata en su día

Diputado Jhon Contreras felicita a las madres de Monte Plata en su día

EEUU condena la ‘pieza electoral’ de Provecto en el país en disputa del Esequibo

EEUU condena la ‘pieza electoral’ de Provecto en el país en disputa del Esequibo

Asociación Cibao facilitará acercamiento al crédito vehicular en feria Anadive Regional Finalidad 2025

Asociación Cibao facilitará acercamiento al crédito vehicular en feria Anadive Regional Finalidad 2025

Estas son mis 15 mejores ofertas favoritas del Día de los Caídos y al viento excarcelado en este momento

Estas son mis 15 mejores ofertas favoritas del Día de los Caídos y al viento excarcelado en este momento

¿Comes por penuria o por emoción? Aprende a identificarlo y mejorar tu bienestar

¿Comes por penuria o por emoción? Aprende a identificarlo y mejorar tu bienestar

El rey Carlos III visitante Canadá en medio de tensiones con Trump: Discurso del Trono histórico

El rey Carlos III visitante Canadá en medio de tensiones con Trump: Discurso del Trono histórico