
Investigadores de Nvidia han desarrollado una técnica que puede ceñir hasta ocho veces los costos de memoria del razonamiento de modelos de jerigonza grandes. Su técnica, citación dispersión de la memoria dinámica (DMS), comprime la personalidad de títulos esencia (KV), la memoria temporal que los LLM generan y almacenan a medida que procesan solicitudes y razonan problemas y documentos.
Si adecuadamente los investigadores han propuesto varios métodos para comprimir este personalidad antiguamente, la mayoría tiene dificultades para hacerlo sin degradar la inteligencia del maniquí. El enfoque de Nvidia logra descartar gran parte del personalidad mientras mantiene (y en algunos casos mejoramiento) las capacidades de razonamiento del maniquí.
Los experimentos muestran que DMS permite a los LLM "pensar" más tiempo y explorar más soluciones sin la penalización habitual en velocidad o costos de memoria.
El cuello de botella del razonamiento
Los LLM mejoran su desempeño en tareas complejas al suscitar "cautiverio de pensamiento" tokens, esencialmente escribiendo sus pasos de razonamiento antiguamente de montar a una respuesta final. Las técnicas de escalado de tiempo de inferencia aprovechan esto al darle al maniquí un presupuesto anciano para suscitar estos tokens de pensamiento o para explorar múltiples rutas potenciales de razonamiento en paralelo.
Sin secuestro, este razonamiento mejorado conlleva un coste computacional significativo. A medida que el maniquí genera más tokens, construye un personalidad KV.
Para aplicaciones del mundo vivo, la personalidad KV es un cuello de botella importante. A medida que crece la cautiverio de razonamiento, la personalidad crece linealmente, consumiendo grandes cantidades de memoria en las GPU. Esto obliga al hardware a destinar más tiempo a deletrear datos de la memoria que a computarlos, lo que ralentiza la coexistentes y aumenta la latencia. Todavía limita la cantidad de usuarios que un sistema puede atender simultáneamente, ya que quedarse sin VRAM hace que el sistema falle o se ralentice.
Los investigadores de Nvidia plantean esto no sólo como un obstáculo técnico, sino igualmente como un obstáculo crematístico fundamental para la empresa.
"La cuestión no es sólo la cantidad de hardware; se manejo de si su infraestructura procesa 100 subprocesos de razonamiento u 800 subprocesos por el mismo costo," Piotr Nawrot, ingeniero senior de estudios profundo de Nvidia, dijo a VentureBeat.
Los intentos anteriores de resolver este problema se centraron en enfoques basados en heurísticas. Estos métodos utilizan reglas rígidas, como una "ventana corredera" que solo almacena en personalidad los tokens más recientes y elimina el resto. Si adecuadamente esto reduce el uso de memoria, a menudo obliga al maniquí a descartar información crítica necesaria para resolver el problema, lo que degrada la precisión de la salida.
"Los métodos de desalojo estereotipado intentan inclinarse tokens viejos y no utilizados para el desalojo utilizando heurísticas," dijeron los investigadores. "Simplifican el problema, con la esperanza de que si se aproximan a la mecánica interna del maniquí, la respuesta seguirá siendo correcta."
Otras soluciones utilizan paginación para descargar las partes no utilizadas de la personalidad KV a una memoria más lenta, pero el constante intercambio de datos introduce una sobrecarga de latencia que hace que las aplicaciones en tiempo vivo sean lentas.
Dispersión de la memoria dinámica
DMS adopta un enfoque diferente al "modernización" LLM existentes para encargar inteligentemente su propia memoria. En oportunidad de aplicar una regla fija sobre qué eliminar, DMS entrena el maniquí para identificar qué tokens son esenciales para el razonamiento futuro y cuáles son desechables.
"No sólo adivina la importancia; aprende una política que preserva explícitamente la distribución de salida final del maniquí," dijo Nawrot.
El proceso transforma un LLM estereotipado previamente entrenado, como Claridad 3 o Qwen 3, en un maniquí autocomprimido. Fundamentalmente, esto no requiere entrenar el maniquí desde cero, lo que sería prohibitivamente costoso. En cambio, DMS reutiliza las neuronas existentes en el interior de las capas de atención del maniquí para suscitar una "nutrir" o "desalojar" señal para cada token.
Para los equipos preocupados por la complejidad de la modernización, los investigadores observaron que el proceso está diseñado para ser leve. "Para mejorar la eficiencia de este proceso, los pesos del maniquí se pueden congelar, lo que hace que el proceso sea similar a la Adecuación de bajo rango (LoRA)." dijo Nawrot. Esto significa un maniquí empresarial estereotipado como Qwen3-8B. "Se puede refrescar con DMS en cuestión de horas en un solo DGX H100."
Una de las partes importantes de DMS es un mecanismo llamado "desalojo retrasado." En la dispersión estereotipado, si un token se considera sin importancia, se elimina inmediatamente. Esto es arriesgado porque el maniquí podría carecer una fracción de segundo para integrar el contexto de ese token en su estado presente.
DMS mitiga esto marcando un token para desalojo pero manteniéndolo accesible durante un breve período de tiempo (por ejemplo, unos cientos de pasos). Este retraso permite que el maniquí "extracto" cualquier información necesaria restante del token y fusionarla en el contexto presente antiguamente de que el token se borre de la personalidad de KV.
“El mecanismo de ‘desalojo retrasado’ es crucial porque no todos los tokens son simplemente ‘importantes’ (conservar para siempre) o ‘inútiles’ (eliminar inmediatamente). Muchos se encuentran en el medio: contienen cierta información, pero no la suficiente como para explicar la ocupación de un espacio completo en la memoria”, dijo Nawrot. “Aquí es donde radica la sobra. Al nutrir estos tokens en una ventana restringido durante un corto período de tiempo antiguamente del desalojo, permitimos que el maniquí los atienda y redistribuya su información en futuros tokens”.
Los investigadores descubrieron que este proceso de modernización es muy eficaz. Podrían equipar un LLM previamente capacitado con DMS en solo 1000 pasos de capacitación, una pequeña fracción de la computación requerida para la capacitación diferente. Los modelos resultantes utilizan núcleos estereotipado y pueden colocarse directamente en pilas de inferencia de parada rendimiento existentes sin penuria de reescribir hardware personalizado ni software complicado.
DMS en obra
Para validar la técnica, los investigadores aplicaron DMS a varios modelos de razonamiento, incluida la serie Qwen-R1 (destilada de DeepSeek R1) y Claridad 3.2, y los probaron en puntos de narración difíciles como AIME 24 (matemáticas), GPQA Diamond (ciencia) y LiveCodeBench (codificación).
Los resultados muestran que DMS mueve efectivamente la frontera de Pareto, el seguridad magnífico entre costo y rendimiento. En la prueba comparativa matemática AIME 24, un maniquí Qwen-R1 32B equipado con DMS logró una puntuación 12,0 puntos superior a un maniquí estereotipado cuando se limitó al mismo presupuesto de orondo de lado de memoria. Al comprimir el personalidad, el maniquí podría darse el boato de "pensar" mucho más profundo y amplio que el maniquí estereotipado con el mismo presupuesto de memoria y computación.
Quizás lo más sorprendente es que DMS desafió la reflexión popular de que la compresión perjudica la comprensión del contexto a dilatado plazo. En "manilla en un pajar" pruebas, que miden la capacidad de un maniquí para encontrar una información específica oculta en un documento sobresaliente, las variantes de DMS en efectividad superaron a los modelos estereotipado. Al encargar activamente su memoria en oportunidad de acumular ruido pasivamente, el maniquí mantuvo un contexto más honesto y útil.
Para la infraestructura empresarial, las ganancias en eficiencia se traducen directamente en ahorros de rendimiento y hardware. Conveniente a que la memoria personalidad es significativamente más pequeña, la GPU dedica menos tiempo a averiguar datos, lo que reduce el tiempo de demora de los usuarios. En las pruebas con el maniquí Qwen3-8B, DMS igualó la precisión del maniquí nuclear y ofreció un rendimiento hasta 5 veces anciano. Esto significa que un único servidor puede manejar cinco veces más consultas de clientes por segundo sin que la calidad disminuya.
El futuro de la memoria
Nvidia ha atrevido DMS como parte de su Biblioteca KVPress. En cuanto a cómo las empresas pueden principiar a utilizar DMS, Nawrot enfatizó que la barrera de entrada es desvaloración. "La ‘infraestructura mínima viable’ son las canalizaciones estereotipado de Hugging Face: no se requieren núcleos CUDA personalizados." dijo Nawrot, señalando que el código es totalmente compatible con el estereotipado FlashAttention.
De cara al futuro, el equipo ve a DMS como parte de un cambio más amplio en el que la gobierno de la memoria se convierte en una capa distinta e inteligente de la pila de IA. Nawrot igualmente confirmó que DMS es "totalmente compatible" con arquitecturas más nuevas como la Atención disfrazado de múltiples cabezas (MLA) utilizado en los modelos de DeepSeek, lo que sugiere que la combinación de estos enfoques podría suscitar ganancias de eficiencia aún mayores.
A medida que las empresas pasan de simples chatbots a complejos sistemas de agentes que requieren un razonamiento más amplio, el costo de la inferencia se está convirtiendo en una preocupación primordial. Técnicas como DMS proporcionan un camino para progresar estas capacidades de guisa sostenible.
"Escasamente hemos arañado la superficie de lo que es posible," Nawrot dijo: "y esperamos que la escalera del tiempo de inferencia evolucione aún más."





