S3: El nuevo ámbito de RAG que entrena a los agentes de búsqueda con datos mínimos


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Investigadores de Universidad de Illinois Urbana-Champaign han introducido s3un ámbito de código extenso diseñado para construir sistemas de procreación de recuperación (RAG) de guisa más válido que los métodos actuales.

S3 puede beneficiar a los desarrolladores que crean aplicaciones del Maniquí de Argot Grandeo (LLM) del mundo vivo, ya que simplifica y reduce el costo de crear modelos Retriever internamente de las arquitecturas RAG.

Recuperación de rag

La efectividad de cualquier sistema de RAG depende de la calidad de su componente de recuperación. En su papellos investigadores clasifican la cambio de los enfoques de RAG en tres fases distintas.

  1. Los sistemas de “trapo clásico” se basan en métodos de recuperación estática con consultas fijas, donde la calidad de la recuperación se desconecta del rendimiento de la procreación final. Estas arquitecturas luchan con consultas que requieren razonamiento contextual o de múltiples saltos.
  2. Una escalón posterior, denominada “pre-RL-Zero”, introduce una décimo más activa de LLM durante la inferencia. Estas técnicas involucraron interacciones múltiples, la procreación de consultas, recuperación y razonamiento. Sin retención, generalmente dependen de la impulso de disparo cero y carecen de componentes capacitables para optimizar la recuperación a través de señales de resultado directas.
  3. La escalón más nuevo, “RL-Zero”, aprovecha el educación de refuerzo (RL) para entrenar modelos para comportarse como agentes de búsqueda, mejorando a través de la feedback basada en resultados como la corrección de las respuestas. Un ejemplo es Search-R1, que entrena el maniquí para entrelazar el razonamiento con consultas de búsqueda y contexto recuperado.

A pesar de sus avances, los enfoques existentes de RL-Zero a menudo optimizan la recuperación utilizando métricas centradas en la búsqueda que ignoran la utilidad posterior. Por otra parte, requieren ajuste de la LLMque es costoso y propenso a errores. Al enredar la recuperación con la procreación, limitan la utilidad de búsqueda vivo y la compatibilidad con modelos congelados o patentados.

Diferentes tipos de trapo (Fuente: ARXIV)
Diferentes tipos de trapo Fuente: ARXIV

Como dicen los investigadores, “esto motiva un cambio en dirección a un ámbito modular donde la búsqueda y la procreación se separan limpiamente, y la optimización se centra exclusivamente en la calidad de búsqueda con respecto a la utilidad posterior”.

s3

El ámbito S3 aborda este desafío con un enfoque descreído maniquí. La idea principal es entrenar a un agente de búsqueda con acercamiento estructurado y múltiple a conocimiento forastero. Este agente de búsqueda prosperidad la calidad de la etapa de recuperación sin afectar el LLM que genera la respuesta final.

En S3, un buscador dedicado LLM interactúa iterativamente con un motor de búsqueda. Genera consultas basadas en el aviso, recupera documentos relevantes, selecciona un subconjunto útil de evidencia y decide si continuar buscando más información. Una vez que la búsqueda concluye, un magneto congelado y separado LLM consume esta evidencia acumulada para producir la respuesta final.

Marco S3 (Fuente: ARXIV)
S3 Fuente del ámbito: ARXIV

Una innovación central de S3 es su señal de galardón, Gane Beyond Rag (GBR). GBR cuantifica la prosperidad en la precisión del magneto cuando se condiciona a los documentos recuperados por S3, en comparación con una renglón de colchoneta que recupera los documentos principales que coinciden con la consulta. Esta galardón incentiva al buscador para encontrar documentos que positivamente mejoren la calidad de salida del magneto.

“S3 desacopla el Retriever (Searcher) del magneto. Esto permite a las empresas conectar a cualquier LLM de propiedad o patentado, ya sea GPT-4, Claude o un maniquí interno, sin tener que ajustarlo”, dijo a VentureBeat Patrick (Pengcheng) Jiang, autor principal del documento y estudiante doctoral de UIUC. “Para las empresas con restricciones regulatorias o contractuales sobre la modificación del maniquí, o aquellas que dependen de las API LLM de código cerrado, esta modularidad hace que S3 sea muy ejercicio. Les permite mejorar la calidad de búsqueda sin tocar su infraestructura de procreación”.

S3 en actividad

Los investigadores probaron S3 en seis puntos de remisión de respuesta de dominio caudillo, comparándolo con tres categorías de sistemas RAG: ajuste de extremo a extremo (p. Ej. En sus experimentos, utilizaron el instrucciones QWEN2.5-7B como el maniquí colchoneta para el buscador y QWEN2.5-14b-Instructo y Claude 3 Haiku como el magneto congelado LLMS.

S3 superó las líneas de colchoneta estática, de disparo cero y sintonizado de extremo a extremo en la mayoría de los puntos de remisión y logró un puntaje promedio. Su eficiencia de datos es particularmente importante: S3 alcanzó fuertes ganancias con solo 2.4K ejemplos de entrenamiento, significativamente menos que los 70k ejemplos requeridos por Deepretrieval (un ámbito de recuperación estática) o los 170k necesarios por Search-R1, al tiempo que superan tanto el rendimiento de la calidad de contexto como en el rendimiento de la respuesta final.

S3 vs otras técnicas de RAG (Fuente: GitHub)
S3 vs otras técnicas de RAG Fuente: Github

“Muchas empresas carecen de conjuntos de datos de control de calidad anotados a gran escalera o la infraestructura de GPU para ajustar los sistemas LLM de extremo a extremo. S3 reduce la barrera al permitir un rendimiento de recuperación sólido con una supervisión y cálculo mínimos”, dijo Jiang. “Esto significa prototipos más rápido, costos reducidos y tiempo de despliegue más rápido para aplicaciones de búsqueda con AI”.

Los resultados sugieren un cambio fundamental en la logística de optimización. Como señalan los investigadores en el documento, la anciano parte de la rendimiento de rendimiento en RAG se deriva de “mejorar la capacidad de búsqueda en empleo de alinear las horizontes de procreación”, lo que implica que el enfoque de RL en la logística de búsqueda en empleo de la fila de procreación combinada produce mejores resultados.

Otro hallazgo crucial para las aplicaciones empresariales es la capacidad de S3 para universalizar a los dominios en los que no ha sido capacitado. S3 mostró un éxito de disparo cero en el control de control médico a pesar de la capacitación solo en el control de calidad caudillo, lo que sugiere que “las habilidades de búsqueda aprendidas de refuerzo se generalizan de guisa más confiable que los enfoques sintonizados por la procreación”, según los investigadores.

Esta adaptabilidad de dominio cruzado hace que S3 sea adecuado para aplicaciones empresariales especializadas que a menudo se ocupan de conjuntos de datos patentados o a medida sin requerir datos de capacitación amplios específicos de dominio. Esto significa que un solo buscador capacitado podría servir diferentes departamentos (por ejemplo, legítimo, posibles humanos, atención al cliente) o adaptarse al contenido en cambio, como documentos de nuevos productos.

“Vemos un potencial inmediato en la atención médica, la administración del conocimiento empresarial y el apoyo de la investigación científica, donde la adhesión calidad de recuperación es crítica y los datos etiquetados son a menudo escasos”, dijo Jiang.


Related Posts

The MacRumors Show: Rumores de WWDC de última hora-‘iOS 26’ y aplicación de juegos

En el episodio de esta semana de The MacRumors Showhablamos sobre el plan de Apple para introducir una revisión completa del sistema de diseño y nombres para sus sistemas operativos…

Dijo creativo de bondad de 8 bits

La luz de coyuntura Govee Pixel es una cámara extravagante que agregará un toque retro divertido al escritorio de cualquier componente. Habiendo aceptado por completo que estoy en medio de…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

estas son las respuestas a tus preguntas

estas son las respuestas a tus preguntas

The MacRumors Show: Rumores de WWDC de última hora-‘iOS 26’ y aplicación de juegos

The MacRumors Show: Rumores de WWDC de última hora-‘iOS 26’ y aplicación de juegos

Ardor, úlceras y hepatitis, entre causas más frecuentes de visitas al gastroenterólogo

Ardor, úlceras y hepatitis, entre causas más frecuentes de visitas al gastroenterólogo

El papel de los hábitos saludables para dejar de fumar

El papel de los hábitos saludables para dejar de fumar

las pruebas que no fueron aceptadas por los jueces por tecnicismo

las pruebas que no fueron aceptadas por los jueces por tecnicismo

Dijo creativo de bondad de 8 bits

Dijo creativo de bondad de 8 bits