Los agentes necesitan la búsqueda de vectores más que RAG

Los agentes necesitan la búsqueda de vectores más que RAG

¿Cuál es el papel de las bases de datos vectoriales en el mundo de la IA agente? Ésa es una cuestión que las organizaciones han estado afrontando en los últimos meses. La novelística tuvo un impulso positivo. A medida que los grandes modelos de estilo escalaban a ventanas de contexto de millones de tokens, circuló un argumento posible entre los arquitectos empresariales: la búsqueda de vectores especialmente diseñada era una posibilidad provisional, no una infraestructura. La memoria agente absorbería el problema de la recuperación. Las bases de datos vectoriales eran un artefacto de la era RAG.

La evidencia de producción va en sentido contrario.

Qdrantla empresa de búsqueda de vectores de código despejado con sede en Berlín, anunció el jueves una Serie B de 50 millones de dólares, dos primaveras luego de una Serie A de 28 millones de dólares. El momento no es casual. La compañía igualmente envía la lectura 1.17 de su plataforma. Juntos, reflejan un argumento específico: el problema de recuperación no disminuyó cuando llegaron los agentes. Aumentó y se volvió más difícil.

"Los humanos hacen algunas consultas cada pocos minutos," Andre Zayarni, director ejecutor y cofundador de Qdrant, dijo a VentureBeat. "Los agentes realizan cientos o incluso miles de consultas por segundo, simplemente recopilando información para poder tomar decisiones."

Ese cambio cambia los requisitos de infraestructura de una forma que las implementaciones de la era RAG nunca fueron diseñadas para manejar.

Por qué los agentes necesitan una capa de recuperación que la memoria no puede reemplazar

Los agentes operan con información para la que nunca fueron capacitados: datos empresariales propietarios, información flagrante, millones de documentos que cambian continuamente. Las ventanas de contexto administran el estado de la sesión. No proporcionan una búsqueda de reincorporación recuperación a través de esos datos, no mantienen la calidad de la recuperación a medida que cambia, ni sostienen los volúmenes de consultas que genera la toma de decisiones autónoma.

"La mayoría de los marcos de memoria de IA que existen utilizan algún tipo de almacenamiento vectorial," Dijo Zayarni.

La implicación es directa: incluso las herramientas posicionadas como alternativas de memoria dependen de la infraestructura de recuperación subyacente.

Surgen tres modos de descompostura cuando esa capa de recuperación no está diseñada específicamente para la carga. A escalera de documento, un resultado perdido no es un problema de latencia: es un problema de calidad de valentía que se agrava en cada paso de recuperación en un solo turno de agente. Bajo carga de escritura, la relevancia se degrada porque los datos recién ingeridos se ubican en segmentos no optimizados ayer de que la indexación se ponga al día, lo que hace que las búsquedas sobre los datos más recientes sean más lentas y menos precisas precisamente cuando la información flagrante es más importante. En toda la infraestructura distribuida, una única réplica lenta impulsa la latencia en cada convocatoria de útil paralela en un turno de agente: un retraso que un beneficiario humano absorbe como un inconveniente, pero un agente autónomo no puede.

La lectura 1.17 de Qdrant aborda cada uno de ellos directamente. Una consulta de feedback de relevancia perfeccionamiento la recuperación al ajustar la puntuación de similitud en el próximo paso de recuperación utilizando señales livianas generadas por el maniquí, sin retornar a entrenar el maniquí integrado. Una función de distribución retrasada consulta una segunda réplica cuando la primera supera un origen de latencia configurable. Una nueva API de telemetría para todo el clúster reemplaza la posibilidad de problemas nodo por nodo con una horizonte única de todo el clúster.

Por qué Qdrant ya no quiere llamarse pulvínulo de datos vectorial

Casi todas las bases de datos importantes ahora admiten vectores como tipo de datos, desde hiperescaladores hasta sistemas relacionales tradicionales. Ese cambio ha cambiado la cuestión competitiva. El tipo de datos ahora es poco que está en gozne. Lo que sigue estando especializado es la calidad de la recuperación a escalera de producción.

Esa distinción es la razón por la que Zayarni ya no quiere que Qdrant se llame pulvínulo de datos vectorial.

"Estamos construyendo una capa de recuperación de información para la era de la IA." dijo. "Las bases de datos sirven para acumular datos de los usuarios. Si la calidad de los resultados de la búsqueda es importante, necesita un motor de búsqueda."

Su consejo para los equipos que comienzan: use cualquier soporte vectorial que ya esté en su pila. Los equipos que migran a la recuperación especialmente diseñada lo hacen cuando la escalera obliga al problema.

"Vemos empresas que acuden a nosotros todos los días para decirnos que empezaron con Postgres y que pensaban que era lo suficientemente bueno, y no lo es."

La edificio de Qdrant, escrita en Rust, le brinda eficiencia de memoria y control de rendimiento de bajo nivel que los lenguajes de nivel superior no igualan al mismo costo. La pulvínulo de código despejado agrava esa superioridad: los comentarios de la comunidad y la asimilación de los desarrolladores son lo que permiten a una empresa de la escalera de Qdrant competir con proveedores que tienen medios de ingeniería mucho mayores.

"Sin él, no estaríamos donde estamos ahora en invariable," Dijo Zayarni.

Cómo dos equipos de producción encontraron los límites de las bases de datos de uso militar

Las empresas que construyen sistemas de producción de inteligencia industrial en Qdrant están planteando el mismo argumento desde diferentes direcciones: los agentes necesitan una capa de recuperación, y la memoria conversacional o contextual no la sustituye.

GlassDollar ayuda a empresas como Siemens y Mahle a evaluar nuevas empresas. La búsqueda es el producto principal: un beneficiario describe una obligación en estilo natural y obtiene una índice clasificada de un corpus de millones de empresas. La edificio ejecuta la expansión de consultas en cada solicitud: un único mensaje se despliega en múltiples consultas paralelas, cada una de las cuales recupera candidatos desde un ángulo diferente, ayer de que los resultados se combinen y se vuelvan a clasificar. Se alcahuetería de un patrón de recuperación agente, no un patrón RAG, y requiere una infraestructura de búsqueda especialmente diseñada para mantenerlo en masa.

La empresa migró de Elasticsearch a medida que crecía en torno a 10 millones de documentos indexados. A posteriori de mudarse a Qdrant, redujo los costos de infraestructura en aproximadamente un 40 %, eliminó una capa de compensación basada en palabras secreto que había mantenido para compensar las brechas de relevancia de Elasticsearch y vio un aumento de 3 veces en la décimo de los usuarios.

"Medimos el éxito mediante el remembranza," Kamen Kanev, presidente de producto de GlassDollar, dijo a VentureBeat. "Si las mejores empresas no aparecen en los resultados, nadie más importa. El beneficiario pierde la confianza."

La memoria agente y las ventanas de contexto extendidas siquiera son suficientes para absorber la carga de trabajo que GlassDollar necesita.

"Ese es un problema de infraestructura, no una tarea de dirección del estado de conversación." dijo Kánev. "No es poco que se resuelva extendiendo una ventana de contexto."

Otro beneficiario de Qdrant es &AIque está construyendo infraestructura para los litigios sobre patentes. Su agente de inteligencia industrial, Andy, realiza búsquedas semánticas en cientos de millones de documentos que abarcan décadas y múltiples jurisdicciones. Los abogados de patentes no actuarán sobre el texto justo generado por IA, lo que significa que cada resultado que el agente presente debe fundarse en un documento positivo.

"Toda nuestra edificio está diseñada para minimizar el peligro de alucinaciones haciendo de la recuperación el núcleo primitivo, no la engendramiento," Herbie Turner, fundador y director de tecnología de &AI, dijo a VentureBeat.

Para &AI, la capa de agente y la capa de recuperación son distintas por diseño.

"Andy, nuestro agente de patentes, está construido sobre Qdrant," dijo Turner. "El agente es la interfaz. La pulvínulo de datos de vectores es la verdad fundamental."

Tres señales de que es hora de dejar tu configuración flagrante

El punto de partida práctico: utilice cualquier capacidad vectorial que ya esté en su pila. La pregunta de evaluación no es si sumar búsqueda vectorial, sino cuándo su configuración flagrante deja de ser adecuada. Tres señales marcan ese punto: la calidad de la recuperación está directamente relacionada con los resultados comerciales; los patrones de consulta implican expansión, reclasificación en varias etapas o llamadas a herramientas paralelas; o el masa de datos alcanza las decenas de millones de documentos.

En ese punto, la evaluación pasa a preguntas operativas: cuánta visibilidad le brinda su configuración flagrante sobre lo que sucede en un clúster distribuido y cuánto ganancia de rendimiento tiene cuando aumentan los volúmenes de consultas de los agentes.

"Hay mucho ruido en este momento sobre lo que reemplaza la capa de recuperación," dijo Kánev. "Pero cualquiera que cree un producto en el que la calidad de la recuperación sea el producto y en el que perder un resultado tenga consecuencias comerciales reales, necesita una infraestructura de búsqueda dedicada."

Related Posts

Trump amenaza a los estudiantes internacionales y un nuevo esquema de ley podría ayudar a detenerlo

Un dúo bipartidista está rechazando los intentos del presidente Donald Trump de poner fin a un software que permite a cientos de miles de estudiantes extranjeros trabajar en Estados Unidos…

El estafador indultado Nikola está recaudando fondos para aviones propulsados ​​por inteligencia fabricado que, según afirma, remodelarán la aviación

Trevor Milton, el perdonado fundador de Nikola, es Buscan 1.000 millones de dólares para aviones autónomos propulsados ​​por IA a través de una nueva empresa señal SyberJet. The Tech Buzz…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Suscripción cooperación de dominicanos a Feria Inmobiliaria Banreservas en el Detención Manhattan

Suscripción cooperación de dominicanos a Feria Inmobiliaria Banreservas en el Detención Manhattan

Trump amenaza a los estudiantes internacionales y un nuevo esquema de ley podría ayudar a detenerlo

Trump amenaza a los estudiantes internacionales y un nuevo esquema de ley podría ayudar a detenerlo

Díaz-Canel tacha de «acto inamistoso» la atrevimiento de Costa Rica de prohibir las relaciones

Díaz-Canel tacha de «acto inamistoso» la atrevimiento de Costa Rica de prohibir las relaciones

La innovación tecnológica impulsa la agropecuaria dominicana

La innovación tecnológica impulsa la agropecuaria dominicana

Lo excelente y lo feo de Premios Soberano 2026

Lo excelente y lo feo de Premios Soberano 2026

El estafador indultado Nikola está recaudando fondos para aviones propulsados ​​por inteligencia fabricado que, según afirma, remodelarán la aviación

El estafador indultado Nikola está recaudando fondos para aviones propulsados ​​por inteligencia fabricado que, según afirma, remodelarán la aviación