![]()
A estas cielo, muchas empresas han implementado algún tipo de RAG. La promesa es seductora: indexe sus archivos PDF, conecte un LLM y democratice instantáneamente su conocimiento corporativo.
Pero para las industrias que dependen de la ingeniería pesada, la existencia ha sido decepcionante. Los ingenieros hacen preguntas específicas sobre infraestructura y el autómata alucina.
El fracaso no está en el LLM. El resolución está en el preprocesamiento.
Los canales RAG standard tratan los documentos como cadenas planas de texto. ellos usan "fragmentación de tamaño fijo" (cortando un documento cada 500 caracteres). Esto funciona para la prosa, pero destruye la razonamiento de los manuales técnicos. Divide las tablas por la porción, separa los títulos de las imágenes e ignora la subordinación visual de la página.
IMejorar la confiabilidad del RAG no se negociación de comprar un maniquí más ilustre; se negociación de arreglar el "datos oscuros" problema a través de fragmentación semántica y textualización multimodal.
Aquí está el ámbito arquitectónico para construir un sistema RAG que efectivamente pueda repasar un manual.
La falsedad de la fragmentación de tamaño fijo
En un tutorial standard de Python RAG, se divide el texto por número de caracteres. En un PDF empresarial, esto es desastroso.
Si una tabla de especificaciones de seguridad alpargata 1000 tokens y el tamaño de su fragmento es 500, acaba de dividir el "frontera de voltaje" encabezado de la "240V" valía. La cojín de datos de vectores los almacena por separado. Cuando un becario pregunta, "¿Cuál es el frontera de voltaje?"el sistema de recuperación encuentra el encabezado pero no el valía. El LLM, obligado a objetar, a menudo adivina.
La posibilidad: fragmentación semántica
El primer paso para solucionar el RAG de producción es confiarse el recuento de caracteres arbitrarios en ayuda de la inteligencia de documentos.
Al utilizar herramientas de prospección que tienen en cuenta el diseño (como Azure Document Intelligence), podemos segmentar datos según la estructura del documento, como capítulos, secciones y párrafos, en sitio del recuento de tokens.
-
Cohesión razonamiento: Una sección que describe una cuarto específica de una máquina se mantiene como un único vector, incluso si varía en largura.
-
Conservación de la mesa: El analizador identifica un frontera de tabla y fuerza toda la cuadrícula en un solo fragmento, preservando las relaciones fila-columna que son vitales para una recuperación precisa.
En nuestros puntos de remisión cualitativos internos, suceder de la fragmentación fija a la semántica mejoró significativamente la precisión de la recuperación de datos tabulares, deteniendo efectivamente la fragmentación de las especificaciones técnicas.
Desbloquear datos visuales oscuros
El segundo modo de defecto del RAG empresarial es la ceguera. Una enorme cantidad de propiedad intelectual corporativa existe no en texto, sino en diagramas de flujo, esquemas y diagramas de construcción de sistemas. Los modelos de incrustación standard (como text-embedding-3-small) no pueden "ver" estas imágenes. Se omiten durante la indexación.
Si su respuesta se encuentra en un diagrama de flujo, su sistema RAG dirá: "No sé."
La posibilidad: textualización multimodal
Para que se puedan realizar búsquedas en los diagramas, implementamos un paso de preprocesamiento multimodal utilizando modelos con capacidad de visión (específicamente GPT-4o) antiguamente de que los datos lleguen al almacén de vectores.
-
Extirpación de OCR: El inspección óptico de caracteres de inscripción precisión extrae etiquetas de texto desde adentro de la imagen.
-
Subtítulos generativos: El maniquí de visión analiza la imagen y genera una descripción detallada en jerigonza natural ("Un diagrama de flujo que muestra que el proceso A conduce al proceso B si la temperatura excede los 50 grados.").
-
Incrustación híbrida: Esta descripción generada se incrusta y almacena como metadatos vinculados a la imagen flamante.
Ahora, cuando un becario averiguación "flujo de proceso de temperatura," la búsqueda vectorial coincide con el descripciónaunque la fuente flamante era un archivo PNG.
La capa de confianza: interfaz de becario basada en evidencia
Para la asimilación empresarial, la precisión es sólo la porción de la batalla. La otra porción es verificabilidad.
En una interfaz RAG standard, el chatbot da una respuesta de texto y cita un nombre de archivo. Esto obliga al becario a descargar el PDF y inquirir la página para compulsar el señuelo. Para consultas de suspensión peligro ("¿Es este químico inflamable?"), los usuarios simplemente no confiarán en el bot.
El la construcción debe implementar la citación visual. Adecuado a que preservamos el vínculo entre el fragmento de texto y su imagen principal durante la etapa de preprocesamiento, la interfaz de becario puede mostrar el expresivo o tabla exacta utilizada para producir la respuesta adyacente con la respuesta de texto.
Este "muestra tu trabajo" El mecanismo permite a los humanos compulsar el razonamiento de la IA al instante, cerrando la brecha de confianza que acaba con tantos proyectos internos de IA.
Preparación para el futuro: incorporaciones multimodales nativas
Mientras que el "textualización" El método (convertir imágenes en descripciones de texto) es la posibilidad ejercicio hoy en día, la construcción está evolucionando rápidamente.
Ya estamos viendo el surgimiento de incorporaciones multimodales nativas (como el Embed 4 de Cohere). Estos modelos pueden asignar texto e imágenes al mismo espacio vectorial sin el paso intermedio de los subtítulos. Si adecuadamente actualmente utilizamos un proceso de múltiples etapas para ganar el mayor control, el futuro de la infraestructura de datos probablemente implicará "de extremo a extremo" Vectorización donde el diseño de una página se incrusta directamente.
Adicionalmente, como LLM de contexto espacioso volverse rentable, la falta de fragmentación puede disminuir. Es posible que pronto pasemos manuales completos a la ventana contextual. Sin secuestro, hasta que la latencia y el costo de las llamadas de millones de tokens disminuyan significativamente, el preprocesamiento semántico seguirá siendo la logística económicamente más viable para los sistemas en tiempo actual.
Conclusión
La diferencia entre una demostración de RAG y un sistema de producción es cómo maneja la confusa existencia de los datos empresariales.
Deja de tratar tus documentos como simples cadenas de texto. Si quieres que tu IA comprenda tu negocio, debes respetar la estructura de tus documentos. Al implementar la fragmentación semántica y desbloquear los datos visuales adentro de sus gráficos, transforma su sistema RAG de un "buscador de palabras secreto" en un efectivo "asistente de conocimiento."
Dippu Kumar Singh es arquitecto de inteligencia sintético e ingeniero de datos.






