Databricks creó un agente RAG que, según afirma, puede manejar todo tipo de búsqueda empresarial

Databricks creó un agente RAG que, según afirma, puede manejar todo tipo de búsqueda empresarial

La mayoría de los canales de RAG empresariales están optimizados para un comportamiento de búsqueda. Fallan silenciosamente con los demás. Un maniquí entrenado para sintetizar informes entre documentos maneja mal la búsqueda de entidades basada en restricciones. Un maniquí adaptado para tareas de búsqueda simples se desmorona conveniente al razonamiento de varios pasos sobre notas internas. La mayoría de los equipos se dan cuenta cuando poco se rompe.

Databricks se propuso solucionar este problema con KARL, sigla de Agentes de conocimiento mediante enseñanza por refuerzo. La empresa capacitó a un agente en seis comportamientos de búsqueda empresarial distintos simultáneamente utilizando un nuevo operación de enseñanza por refuerzo. El resultado, afirma la compañía, es un maniquí que iguala a Claude Opus 4.6 en un punto de relato especialmente diseñado con un costo por consulta 33% último y una latencia 47% último, entrenado completamente en datos sintéticos que el propio agente generó sin carencia de etiquetado humano. Esa comparación se podio en KARLBench, que Databricks creó para evaluar los comportamientos de búsqueda empresarial.

"Muchas de las grandes victorias en el enseñanza por refuerzo que hemos manido en la comunidad durante el año pasado se han producido en tareas verificables en las que hay una respuesta correcta y una incorrecta." Jonathan Frankle, estudiado director de inteligencia industrial de Databricks, dijo a VentureBeat en una entrevista monopolio. "Las tareas en las que trabajamos para KARL, que son normales para la mayoría de las empresas, no son estrictamente verificables de la misma modo."

Esas tareas incluyen sintetizar inteligencia a través de notas de reuniones de gerentes de producto, recobrar resultados de acuerdos competitivos a partir de registros fragmentados de clientes, contestar preguntas sobre el historial de cuentas donde ningún documento tiene la respuesta completa y suscitar cartas de batalla a partir de datos internos no estructurados. Ningún de ellos tiene una única respuesta correcta que un sistema pueda efectuar automáticamente.

"Hacer enseñanza por refuerzo en un mundo donde no hay una respuesta estricta correcta e incorrecta, y descubrir cómo enfilar el proceso y cerciorarse de que no se produzca un hackeo de recompensas, eso no es efectivamente trivial." Dijo Frankle. "Muy poco de lo que las empresas hacen día a día en tareas de conocimiento es verificable."

La trampa de la universalización en el RAG empresarial

El RAG tipificado se descompone en consultas ambiguas de varios pasos que se basan en datos internos fragmentados que nunca fueron diseñados para ser consultados.

Para evaluar a KARL, Databricks creó el punto de relato KARLBench para determinar el rendimiento en seis comportamientos de búsqueda empresarial: búsqueda de entidades basada en restricciones, síntesis de informes entre documentos, represión de documentos extensos con razonamiento algorítmico tabular, recuperación exhaustiva de entidades, razonamiento procesal sobre documentación técnica y agregación de hechos sobre notas internas de la empresa. Esa última tarea es PMBench, construida a partir de las notas de las reuniones del propio directivo de producto de Databricks: fragmentada, ambigua y desestructurada en formas que los modelos de frontera manejan mal.

Entrenar en una sola tarea y probar las demás produce malos resultados. El artículo de KARL muestra que la RL multitarea se generaliza de una modo que el entrenamiento con una sola tarea no lo hace. El equipo entrenó a KARL con datos sintéticos para dos de las seis tareas y descubrió que funcionó admisiblemente en las cuatro que nunca había manido.

Para crear una carta de batalla competitiva para un cliente de servicios financieros, por ejemplo, el agente tiene que identificar cuentas relevantes, filtrar por lo fresco, recobrar acuerdos competitivos pasados ​​e inferir resultados, ningún de los cuales está etiquetado en ninguna parte de los datos.

Frankle fogosidad lo que hace KARL "razonamiento fundamentado": ejecutar una prisión de razonamiento difícil mientras áncora cada paso en hechos recuperados. "Puedes pensar en esto como RAG," él dijo, "pero como RAG plus plus plus plus plus plus, hasta 200 llamadas a bases de datos vectoriales."

El motor RL: por qué es importante OAPL

La capacitación de KARL está impulsada por OAPL, sigla de Optimización óptima de políticas basada en ventajas con política de inferencia retrasada. Es un nuevo enfoque, desarrollado conjuntamente por investigadores de Cornell, Databricks y Harvard y publicado en un papel separado la semana aludido a KARL.

El enseñanza por refuerzo tipificado de LLM utiliza algoritmos basados ​​en políticas como GRPO (optimización de políticas relativas a grupos), que asumen que el maniquí que genera datos de entrenamiento y el maniquí que se actualiza están sincronizados. En la formación distribuida, nunca lo son. Los enfoques anteriores corrigieron esto con un muestreo de importancia, introduciendo varianza e inestabilidad. En cambio, la OAPL adopta la naturaleza fuera de las políticas de la capacitación distribuida, utilizando un objetivo de regresión que se mantiene estable con retrasos en las políticas de más de 400 pasos de gradiente, 100 veces más fuera de las políticas que los enfoques anteriores manejados. En experimentos de concepción de código, coincidió con un maniquí entrenado por GRPO utilizando aproximadamente tres veces menos muestras de entrenamiento.

La eficiencia de las muestras de OAPL es lo que mantiene accesible el presupuesto de formación. Reutilizar implementaciones recopiladas anteriormente en lado de requerir datos nuevos sobre políticas para cada modernización significó que la ejecución completa del entrenamiento de KARL se mantuviera interiormente de unos pocos miles de horas de GPU. Ésa es la diferencia entre un esquema de investigación y poco que un equipo empresarial puede intentar de modo realista.

Agentes, memoria y pila de contexto.

En los últimos meses se ha debatido mucho en la industria sobre cómo se puede reemplazar RAG con memoria contextual, a veces incluso denominada memoria agente.

Para Frankle, no se alcahuetería de una discusión sobre esto o lo otro, sino que lo ve como una pila de capas. En la saco se encuentra una saco de datos vectorial con millones de entradas, que es demasiado amplio para el contexto. La ventana de contexto de LLM se encuentra en la parte superior. Entre ellos, están surgiendo capas de compresión y almacenamiento en personalidad que determinan cuánto de lo que un agente ya ha aprendido puede aguantar delante.

Para KARL esto no es universal. Algunas tareas de KARLBench requirieron 200 consultas secuenciales de bases de datos vectoriales, con el agente refinando las búsquedas, verificando detalles y haciendo referencias cruzadas de documentos ayer de comprometerse con una respuesta, agotando la ventana de contexto muchas veces. En lado de entrenar un maniquí de esquema separado, el equipo permitió que KARL aprendiera la compresión de un extremo a otro a través de RL: cuando el contexto crece demasiado, el agente lo comprime y continúa, siendo la única señal de entrenamiento la premio al final de la tarea. La asesinato de esa compresión aprendida redujo la precisión en un punto de relato del 57% al 39%.

"Simplemente dejamos que el maniquí descubra cómo comprimir su propio contexto," Dijo Frankle. "Y esto funcionó fenomenalmente admisiblemente."

Donde KARL se queda corto

Frankle fue sincero acerca de los modos de rotura. KARL tiene más dificultades con preguntas con una confusión significativa, donde existen múltiples respuestas válidas y el maniquí no puede determinar si la pregunta es genuinamente abierta o simplemente difícil de contestar. Esa valor es todavía un problema sin resolver.

El maniquí incluso muestra lo que Frankle describió como darse por vencido temprano en algunas preguntas: detenerse ayer de producir una respuesta final. Rechazó la idea de considerar esto como un fracaso, señalando que las consultas más costosas suelen ser aquellas en las que el maniquí se equivoca de todos modos. Detenerse es a menudo la valor correcta.

KARL incluso fue entrenado y evaluado exclusivamente en búsqueda de vectores. Las tareas que requieren consultas SQL, búsqueda de archivos o cálculos basados ​​en Python aún no están interiormente del calibre. Frankle dijo que esas capacidades son las siguientes en la hoja de ruta, pero no están en el sistema coetáneo.

Qué significa esto para los equipos de datos empresariales

KARL presenta tres decisiones que vale la pena revisar para los equipos que evalúan su infraestructura de recuperación.

El primero es la obra de tuberías. Si su agente RAG está optimizado para un comportamiento de búsqueda, los resultados de KARL sugieren que está fallando en otros. El entrenamiento multitarea a través de diversos comportamientos de recuperación produce modelos que se generalizan. Las tuberías estrechas no.

La segunda es la razón por la que la RL es importante aquí, y no es sólo un detalle de capacitación. Databricks probó la alternativa: destilar a partir de modelos expertos mediante un ajuste fino supervisado. Ese enfoque mejoró el desempeño en la distribución, pero produjo ganancias insignificantes en tareas que el maniquí nunca había manido. RL desarrolló comportamientos de búsqueda generales que se transfirieron. Para los equipos empresariales que se enfrentan a datos heterogéneos y tipos de consultas impredecibles, esa distinción lo constituye todo. El tercero es lo que efectivamente significa en la praxis la eficiencia de RL. Un maniquí entrenado para averiguar completa mejor las tareas en menos pasos, se detiene ayer en consultas que no puede contestar, diversifica su búsqueda en lado de repetir consultas fallidas y comprime su propio contexto en lado de quedarse sin espacio. El argumento para capacitar agentes de búsqueda especialmente diseñados en lado de enrutar todo a través de API de frontera de propósito militar no tiene que ver principalmente con el costo. Se alcahuetería de construir un maniquí que sepa cómo hacer el trabajo.

Related Posts

DeepRare supera a los médicos en un estudio de dictamen de enfermedades raras

DeepRare, un sistema de IA agente que integra 40 herramientas especializadas, superó a los especialistas médicos en la identificación de enfermedades raras en un enfrentamiento directo estudio publicado en Nature.…

¿Cree que la IA puede abonar sus impuestos? El IRS podría no estar de acuerdo

Cole Kan/CNET/Getty Presentación impuestos Es tan doloroso que mucha parentela felizmente le entregaría el trabajo a un androide. en la era de IA generativadonde los chatbots pueden crear un estudio…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

El peso de los impuestos en las telecomunicaciones  | AlMomento.net

El peso de los impuestos en las telecomunicaciones  | AlMomento.net

Combustibles mantendrán los mismos precios en Dominicana | AlMomento.net

Combustibles mantendrán los mismos precios en Dominicana | AlMomento.net

DeepRare supera a los médicos en un estudio de dictamen de enfermedades raras

DeepRare supera a los médicos en un estudio de dictamen de enfermedades raras

Cuba anuncia retirada de médicos en Jamaica tras cesar cooperación

Cuba anuncia retirada de médicos en Jamaica tras cesar cooperación

Pedernales y Santo Domingo concentran casi 40% de la inversión pública en enero

Pedernales y Santo Domingo concentran casi 40% de la inversión pública en enero

¿Cree que la IA puede abonar sus impuestos? El IRS podría no estar de acuerdo

¿Cree que la IA puede abonar sus impuestos? El IRS podría no estar de acuerdo