La nueva técnica de compactación de distinción KV reduce la memoria LLM 50 veces sin pérdida de precisión

Las aplicaciones empresariales de IA que manejan documentos grandes o tareas a derrochador plazo se enfrentan a un dificultoso cuello de botella en la memoria. A medida que el contexto se alarga, igualmente lo hace la distinción KV, el campo de acción donde se almacena la memoria de trabajo del maniquí.

Una nueva técnica desarrollada por investigadores del MIT aborda este desafío con un método de compresión rápida para la distinción KV. La técnica, llamamiento Coincidencia de atenciónlogra compactar el contexto hasta 50 veces con muy poca pérdida de calidad.

Si correctamente no es la única técnica de compactación de memoria acondicionado, Attention Matching destaca por su velocidad de ejecución y sus impresionantes capacidades de conservación de información.

El cuello de botella de la memoria del distinción KV

Los modelos de idioma grandes generan sus respuestas de forma secuencial, un token a la vez. Para evitar retornar a calcular todo el historial de conversaciones desde cero para cada palabra predicha, el maniquí almacena una representación matemática de cada token preliminar que ha procesado, igualmente conocido como pares esencia y valía. Esta memoria de trabajo crítica se conoce como distinción KV.

La distinción KV aumenta con la duración de la conversación porque el maniquí se ve obligado a conservar estas claves y títulos para todos los tokens anteriores en una interacción determinada. Esto consume costosos fortuna de hardware. "En la actos, la memoria distinción KV es el anciano cuello de botella para servir modelos en contextos ultralargos." Adam Zweiger, coautor del artículo, dijo a VentureBeat. "Limita la simultaneidad, fuerza lotes más pequeños y/o requiere una descarga más agresiva."

En los casos de uso empresarial modernos, como el investigación de contratos legales masivos, el mantenimiento de diálogos con clientes de varias sesiones o la ejecución de agentes de codificación autónomos, la distinción KV puede aumentar a muchos gigabytes de memoria para una sola solicitud de agraciado.

Para resolver este enorme cuello de botella, la industria de la IA ha probado varias estrategias, pero estos métodos se quedan cortos cuando se implementan en entornos empresariales donde es necesaria una compresión extrema. Una clase de correcciones técnicas incluye la optimización de la distinción de KV, ya sea expulsando tokens que el maniquí considera menos importantes o fusionando tokens similares en una sola representación. Estas técnicas funcionan para una compresión leve, pero “se degradan rápidamente con índices de reducción altos”, según los autores.

Las aplicaciones del mundo existente a menudo se basan en técnicas más simples, siendo el enfoque más popular simplemente eliminar el contexto preliminar una vez que se alcanza el frontera de memoria. Pero este enfoque hace que el maniquí pierda información más antigua a medida que el contexto se alarga. Otra alternativa es el recapitulación de contexto, donde el sistema hace una pausa, escribe un breve recapitulación de texto del contexto preliminar y reemplaza la memoria flamante con ese recapitulación. Si correctamente este es un habitual de la industria, el recapitulación genera muchas pérdidas y daña gravemente el rendimiento posterior porque podría eliminar información pertinente del contexto.

Investigaciones recientes han demostrado que es técnicamente posible comprimir mucho esta memoria. usando un método llamado Cartuchos. Sin secuestro, este enfoque requiere entrenar modelos de distinción KV latentes mediante una optimización matemática lenta de un extremo a otro. Esta capacitación basada en gradientes puede sobrellevar varias horas en GPU costosas solo para comprimir un contexto único, lo que la hace completamente inviable para aplicaciones empresariales en tiempo existente.

Cómo se comprime el emparejamiento de atención sin costo

Attention Matching logra índices de compactación y calidad de parada nivel y, al mismo tiempo, es mucho más rápido que la optimización basada en gradientes. Evita el cachazudo proceso de entrenamiento mediante ingeniosos trucos matemáticos.

Los investigadores se dieron cuenta de que para imitar perfectamente cómo una IA interactúa con su memoria, necesitan preservar dos propiedades matemáticas al comprimir los vectores de esencia y valía originales en una huella más pequeña. La primera es la “salida de atención”, que es la información existente que la IA extrae cuando consulta su memoria. La segunda es la “masa de atención”, que actúa como el peso matemático que tiene un token en relación con todo lo demás en la memoria de trabajo del maniquí. Si la memoria comprimida puede coincidir con estas dos propiedades, se comportará exactamente como la memoria flamante masiva, incluso cuando más delante se agreguen nuevas e impredecibles indicaciones del agraciado.

"Attention Matching es, en cierto modo, el objetivo “correcto” para realizar la compactación del contexto oculto, ya que apunta directamente a preservar el comportamiento de cada capital de atención luego de la compactación." Dijo Zweiger. Si correctamente la caída de tokens y las heurísticas relacionadas pueden funcionar, hacer coincidir explícitamente el comportamiento de atención simplemente conduce a mejores resultados.

Antaño de comprimir la memoria, el sistema genera un pequeño conjunto de “consultas de narración” que actúan como proxy de los tipos de búsquedas internas que es probable que realice el maniquí al razonar sobre el contexto específico. Si la memoria comprimida puede objetar con precisión a estas consultas de narración, muy probablemente logrará objetar las preguntas reales del agraciado más delante. Los autores sugieren varios métodos para originar estas consultas de narración, incluido unir un mensaje oculto al documento que le indica al maniquí que repita el contexto preliminar, conocido como técnica de “repetición-prellenado”. Igualmente sugieren un enfoque de “autoestudio” en el que se solicita al maniquí que realice algunas tareas sintéticas rápidas en el documento, como unir todos los hechos esencia o orquestar fechas y números en un formato JSON.

Con estas consultas en mano, el sistema elige un conjunto de claves para preservar en la distinción KV compactada en función de señales como el valía de atención más parada. Luego utiliza las claves y las consultas de narración para calcular los títulos coincidentes inmediato con un término de sesgo ascender. Este sesgo garantiza que se conserve la información pertinente, lo que permite que cada esencia retenida represente la masa de muchas claves eliminadas.

Esta formulación permite ajustar los títulos con técnicas algebraicas simples, como mínimos cuadrados ordinarios y mínimos cuadrados no negativos, evitando por completo la optimización basada en gradientes con muchos cálculos. Esto es lo que hace que Attention Matching sea súper rápido en comparación con los métodos de compactación que requieren mucha optimización. Los investigadores igualmente aplican la compactación fragmentada, procesando fragmentos contiguos de la entrada de forma independiente y concatenándolos, para mejorar aún más el rendimiento en contextos largos.

Emparejamiento de atención en batalla

Para comprender cómo funciona este método en el mundo existente, los investigadores realizaron una serie de pruebas de estrés utilizando modelos populares de código libre como Fuego 3.1 y Qwen-3 en dos tipos distintos de conjuntos de datos empresariales. El primero fue QuALITY, un punto de narración habitual de comprensión lectora que utiliza documentos de 5.000 a 8.000 palabras. El segundo, que representa un cierto desafío empresarial, fue LongHealth, un conjunto de datos muy denso de 60.000 tokens que contiene registros médicos complejos de múltiples pacientes.

El hallazgo esencia fue la capacidad de Attention Matching para compactar la distinción KV del maniquí 50 veces sin disminuir la precisión, y al mismo tiempo tomar solo unos segundos para procesar los documentos. Para obtener el mismo nivel de calidad preliminar, los cartuchos requerían horas de cálculo intensivo de GPU por contexto.

Al deliberar con registros médicos densos, las soluciones alternativas habitual de la industria colapsaron por completo. Los investigadores notaron que cuando intentaron utilizar un recapitulación de texto habitual en estos registros de pacientes, la precisión del maniquí cayó tan bajo que coincidió con la ristra de pulvínulo “sin contexto”, lo que significa que la IA actuó como si no hubiera docto el documento en categórico.

Attention Matching supera drásticamente al recapitulación, pero los arquitectos empresariales necesitarán disminuir la relación de compresión para tareas densas en comparación con pruebas de comprensión lectora más simples. Como explica Zweiger, "La principal desventaja actos es que si intenta conservar casi todo en contexto en tareas con mucha densidad de información, generalmente necesitará una relación de compactación más suave para conservar una gran precisión."

Los investigadores igualmente exploraron lo que sucede en los casos en los que no es necesaria una precisión absoluta pero sí un capital extremo de memoria. Ejecutaron Attention Matching sobre un recapitulación de texto habitual. Este enfoque combinado logró una compresión de 200x. Igualó con éxito la precisión del recapitulación habitual por sí solo, pero con una huella de memoria muy pequeña.

Uno de los experimentos interesantes para los flujos de trabajo empresariales fue probar la compactación en ristra, aunque señalan que se negociación de una prueba de concepto y no se ha probado rigurosamente en entornos de producción. Los investigadores probaron el maniquí en la prueba vanguardia de razonamiento matemático AIME. Obligaron a la IA a resolver un problema con un frontera de memoria física estrictamente definido. Cada vez que la memoria del maniquí se llenaba, el sistema se detenía, comprimió instantáneamente su memoria de trabajo en un 50 por ciento usando Attention Matching y lo dejó continuar pensando. Incluso luego de chocar contra el pared de la memoria y de que su distinción KV se redujera hasta seis veces consecutivas a fracción del pensamiento, el maniquí resolvió con éxito los problemas matemáticos. Su rendimiento coincidía con un maniquí al que se le había dotado de una memoria masiva e ilimitada.

Hay advertencias a considerar. Con una relación de compresión de 50x, Attention Matching es el claro vencedor al equilibrar velocidad y calidad. Sin secuestro, si una empresa intenta sobrellevar la compresión a límites extremos de 100x en datos muy complejos, el método de cartuchos, más cachazudo y basado en gradientes, en sinceridad lo supera.

Los investigadores han publicado el código para la coincidencia de atención. Sin secuestro, señalan que actualmente no se negociación de una simple aggiornamento de software plug-and-play. "Creo que la compactación oculto se considera mejor como una técnica de capa de maniquí," Notas de Zweiger. "Si correctamente se puede aplicar sobre cualquier maniquí existente, requiere llegada a los pesos del maniquí." Esto significa que las empresas que dependen exclusivamente de API cerradas no pueden implementarlo por sí mismas; necesitan modelos de peso libre.

Los autores señalan que la integración de esta compactación KV del espacio oculto en motores de inferencia comerciales enormemente optimizados existentes aún requiere un esfuerzo significativo. La infraestructura moderna de IA utiliza trucos complejos como el almacenamiento en distinción de prefijos y el empaquetado de memoria de largo variable para ayudar los servidores funcionando de guisa válido, e integrar perfectamente esta nueva técnica de compactación en esos sistemas existentes requerirá un trabajo de ingeniería dedicado. Sin secuestro, existen aplicaciones empresariales inmediatas. "Creemos que la compactación luego de la ingestión es un caso de uso prometedor, donde los resultados de llamadas de herramientas grandes o documentos largos se compactan inmediatamente luego de ser procesados." Dijo Zweiger.

En última instancia, el cambio con destino a la compactación mecánica del espacio oculto se alinea con las futuras hojas de ruta de productos de los principales actores de la IA, sostiene Zweiger. "Estamos viendo una compactación para suceder de poco que las empresas implementan ellas mismas a poco que los proveedores maniquí envían," Dijo Zweiger. "Esto es aún más cierto en el caso de la compactación oculto, donde se necesita llegada a los pesos del maniquí. Por ejemplo, OpenAI ahora expone un punto final de compactación de caja negra que devuelve un objeto opaco en extensión de un recapitulación de texto sin formato."

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

La nueva técnica de compactación de distinción KV reduce la memoria LLM 50 veces sin pérdida de precisión

El cuello de botella de la memoria del distinción KV

Cómo se comprime el emparejamiento de atención sin costo

Emparejamiento de atención en batalla

ztevenreal

Related Posts

Esta es la perfeccionamiento de vivienda número uno que puede realizar en 2026 para aumentar el valía de su casa

La nueva utensilio de ristra de comandos de Google puede conectar OpenClaw a los datos de su espacio de trabajo

Leave a Reply Cancel reply

You Missed

ARGENTINA: Extraditan desde Suiza a dominicano imputado de alistar «mulas» | AlMomento.net

Suben tarifas del procesamiento premium para la Green Card – Remolacha

Esta es la perfeccionamiento de vivienda número uno que puede realizar en 2026 para aumentar el valía de su casa

Metodologías ágiles que están disparando hasta en un 33% los resultados financieros de las empresas

La nueva utensilio de ristra de comandos de Google puede conectar OpenClaw a los datos de su espacio de trabajo

Therians: ¿Moda digital, enfermedad mental o fénomeno social?; expertos alertan sobre la tendencia