Este entorno de búsqueda de árbol alcanza el 98,7% de los documentos en los que defecto la búsqueda vectorial

Este entorno de búsqueda de árbol alcanza el 98,7% de los documentos en los que defecto la búsqueda vectorial

Un nuevo entorno de código campechano llamado Índice de página resuelve uno de los viejos problemas de la recuperación de coexistentes aumentada (RAG): el manejo de documentos muy largos.

El flujo de trabajo clásico de RAG (fragmentar documentos, calcular incrustaciones, almacenarlos en una colchoneta de datos vectorial y recuperar las coincidencias principales según la similitud semántica) funciona proporcionadamente para tareas básicas como preguntas y respuestas sobre documentos pequeños.

PageIndex abandona el típico "fragmentar e engastar" método por completo y tráfico la recuperación de documentos no como un problema de búsqueda, sino como un problema de navegación.

Pero a medida que las empresas intentan aceptar RAG a flujos de trabajo de suspensión peligro (auditar estados financieros, analizar contratos legales, navegar por protocolos farmacéuticos) están chocando con una barrera de precisión que la optimización de fragmentos no puede resolver.

AlphaGo para documentos

PageIndex aborda estas limitaciones tomando prestado un concepto de la IA de los juegos en ocasión de los motores de búsqueda: la búsqueda en árbol.

Cuando los seres humanos necesitan encontrar información específica en un volumen de texto denso o en un mensaje anual extenso, no examinan cada párrafo de forma directo. Consultan el índice para identificar el capítulo relevante, luego la sección y finalmente la página específica. PageIndex obliga al LLM a replicar este comportamiento humano.

En ocasión de precalcular vectores, el entorno construye un "Índice universal" de la estructura del documento, creando un árbol donde los nodos representan capítulos, secciones y subsecciones. Cuando llega una consulta, el LLM realiza una búsqueda de árbol, clasificando explícitamente cada nodo como relevante o irrelevante según el contexto completo de la solicitud del adjudicatario.

"En términos de informática, una tabla de contenido es una representación estructurada en árbol de un documento, y navegar por él corresponde a una búsqueda en árbol," Dijo Zhang. "PageIndex aplica la misma idea central (búsqueda en árbol) a la recuperación de documentos y puede considerarse como un sistema estilo AlphaGo para recuperación en ocasión de juegos."

Esto cambia el canon arquitectónico de la recuperación pasiva, donde el sistema simplemente averiguación el texto coincidente, a la navegación activa, donde un maniquí agente decide dónde agenciárselas.

Los límites de la similitud semántica

Hay un error fundamental en cómo trapo tradicional maneja datos complejos. La recuperación de vectores supone que el texto más semánticamente similar a la consulta de un adjudicatario es además el más relevante. En el ámbito profesional, esta suposición frecuentemente fracasa.

Mingtian Zhang, cofundador de PageIndex, señala los informes financieros como un excelente ejemplo de este modo de fracaso. Si un analista financiero le pregunta a una IA sobre "Ebitda" (ganancias antaño de intereses, impuestos, depreciación y amortización), una colchoneta de datos vectorial típico recuperará cada fragmento donde aparezca ese siglas o un término similar.

"Varias secciones pueden mencionar el EBITDA con una redacción similar, pero solo una sección define el cálculo preciso, los ajustes o el ámbito de los informes relevantes para la pregunta." dijo Zhang a VentureBeat. "Un perro perdiguero basado en similitudes lucha por distinguir estos casos porque las señales semánticas son casi indistinguibles."

Este es el "intención contra contenido" brecha. El adjudicatario no quiere encontrar la palabra. "Ebitda"; quieren entender la “método” detrás de esto para ese trimestre específico.

Adicionalmente, las incorporaciones tradicionales despojan a la consulta de su contexto. Correcto a que los modelos de incrustación tienen límites estrictos de largura de entrada, el sistema de recuperación generalmente solo ve la pregunta específica que se hace, ignorando los giros anteriores de la conversación. Esto separa el paso de recuperación del proceso de razonamiento del adjudicatario. El sistema compara los documentos con una consulta breve y descontextualizada en ocasión del historial completo del problema que el adjudicatario está intentando resolver.

Resolviendo el problema de razonamiento de múltiples saltos

El impacto en el mundo verdadero de este enfoque estructural es más visible en "brinco múltiple" consultas que requieren que la IA siga un rastra de rutas de navegación en diferentes partes de un documento.

En una prueba comparativa nuevo conocida como FinanceBench, un sistema construido sobre PageIndex llamado "Más 2.5" logró una puntuación de precisión de última coexistentes del 98,7%. La brecha de rendimiento entre este enfoque y los sistemas basados ​​en vectores queda clara al analizar cómo manejan las referencias internas.

Zhang ofrece el ejemplo de una consulta sobre el valía total de los activos diferidos en un mensaje anual de la Reserva Federal. La sección principal del mensaje describe el “cambio” en el valía pero no enumera el total. Sin incautación, el texto contiene una nota a pie de página: “Consulte el Apéndice G de este mensaje… para obtener información más detallada”.

Un sistema basado en vectores normalmente defecto aquí. El texto del Apéndice G no se parece en mínimo a la consulta del adjudicatario sobre activos diferidos; probablemente sea solo una tabla de números. Como no hay coincidencia semántica, la colchoneta de datos vectorial la ignora.

Sin incautación, el recuperador basado en el razonamiento lee la pista en el texto principal, sigue el enlace estructural al Apéndice G, localiza la tabla correcta y devuelve la número exacta.

La compensación entre latencia y cambio de infraestructura

Para los arquitectos empresariales, la preocupación inmediata con un proceso de búsqueda basado en LLM es la latencia. Las búsquedas de vectores ocurren en milisegundos; tener un LLM "descifrar" una tabla de contenidos implica una experiencia de adjudicatario significativamente más lenta.

Sin incautación, Zhang explica que la latencia percibida por el adjudicatario final puede ser insignificante adecuado a cómo se integra la recuperación en el proceso de coexistentes. En una configuración RAG clásica, la recuperación es un paso de asedio: el sistema debe agenciárselas en la colchoneta de datos antaño de poder comenzar a gestar una respuesta. Con PageIndex, la recuperación ocurre en camino, durante el proceso de razonamiento del maniquí.

"El sistema puede comenzar a transmitir inmediatamente y recuperar a medida que genera," Dijo Zhang. "Eso significa que PageIndex no agrega una ‘puerta de recuperación’ adicional antaño del primer token, y el tiempo hasta el primer token (TTFT) es comparable a una llamamiento de LLM común."

Este cambio arquitectónico además simplifica la infraestructura de datos. Al eliminar la dependencia de las incorporaciones, las empresas ya no necesitan ayudar una colchoneta de datos vectorial dedicada. El índice estructurado en árbol es lo suficientemente tenue como para ubicarse en una colchoneta de datos relacional tradicional como PostgreSQL.

Esto aborda un problema creciente en los sistemas LLM con componentes de recuperación: la complejidad de ayudar los almacenes de vectores sincronizados con los documentos vivos. PageIndex separa la indexación de estructuras de la procedencia de texto. Si se modifica un acuerdo o se actualiza una política, el sistema puede manejar pequeñas ediciones reindexando solo el subárbol afectado en ocasión de reprocesar todo el corpus del documento.

Una matriz de intrepidez para la empresa.

Si proporcionadamente las ganancias en precisión son convincentes, la recuperación mediante búsqueda de árboles no es un reemplazo universal para la búsqueda de vectores. La tecnología se ve mejor como una útil especializada para "trabajo profundo" en ocasión de un comodín para cada tarea de recuperación.

Para documentos cortos, como correos electrónicos o registros de chat, el contexto completo a menudo junto a en el interior de la ventana contextual de un LLM flamante, lo que hace innecesario cualquier sistema de recuperación. Por el contrario, para tareas basadas puramente en el descubrimiento semántico, como advertir productos similares o encontrar contenido con un contenido similar. "onda," las incorporaciones de vectores siguen siendo la opción superior porque el objetivo es la proximidad, no el razonamiento.

PageIndex encaja perfectamente en el medio: documentos largos y muy estructurados donde el coste del error es suspensión. Esto incluye manuales técnicos, presentaciones de la FDA y acuerdos de fusión. En estos escenarios, el requisito es la auditabilidad. Un sistema empresarial necesita ser capaz de explicar no sólo la respuesta, sino además el camino que tomó para encontrarla (por ejemplo, confirmando que revisó la Sección 4.1, siguió la narración al Apéndice B y sintetizó los datos allí encontrados).

El futuro de la recuperación agente

El auge de marcos como PageIndex indica una tendencia más amplia en la pila de IA: el movimiento en torno a "RAG agente." A medida que los modelos se vuelven más capaces de planificar y razonar, la responsabilidad de encontrar datos pasa de la capa de la colchoneta de datos a la capa del maniquí.

Ya estamos viendo esto en el espacio de la codificación, donde agentes como Código Claude y Cursor se están alejando de las simples búsquedas de vectores en atención de la exploración activa de la colchoneta de código. Zhang cree que la recuperación de documentos genéricos seguirá la misma trayectoria.

"Las bases de datos vectoriales todavía tienen casos de uso adecuados," Dijo Zhang. "Pero su papel histórico como colchoneta de datos predeterminada para los LLM y la IA se volverá menos claro con el tiempo."

Related Posts

Mapeé los chico de comba de mi Android para hacer esto y es increíblemente conveniente

Los chico de comba de su teléfono pueden hacer más que simplemente ajustar el comba. De hecho, eso es lo que busqué hacer: verás, todos los días salgo a pasar…

Desde Irán hasta Ucrania, todos intentan piratear cámaras de seguridad

De hecho, Check Point dice que rastreó ataques iraníes similares contra cámaras ya en junio pasado durante la conflicto precedente de 12 días de Israel con Irán. El jerarca de…

You Missed

Explota artefacto cerca de la residencia del corregidor de NY – Remolacha

Explota artefacto cerca de la residencia del corregidor de NY – Remolacha

Mapeé los chico de comba de mi Android para hacer esto y es increíblemente conveniente

Mapeé los chico de comba de mi Android para hacer esto y es increíblemente conveniente

DNCD arresta a hombre que transportaba 13 paquetes de cocaína en La Altagracia

DNCD arresta a hombre que transportaba 13 paquetes de cocaína en La Altagracia

Trump reconoce formalmente al gobierno de Delcy Rodríguez en Venezuela

Trump reconoce formalmente al gobierno de Delcy Rodríguez en Venezuela

Presidente Abinader participa en firma de proclamación para crear coalición marcial contra cárteles del narcotráfico

Presidente Abinader participa en firma de proclamación para crear coalición marcial contra cárteles del narcotráfico

Desde Irán hasta Ucrania, todos intentan piratear cámaras de seguridad

Desde Irán hasta Ucrania, todos intentan piratear cámaras de seguridad