
Cuando un LLM empresarial recupera el nombre de un producto, una explicación técnica o una cláusula contractual en serie, utiliza un costoso cálculo de GPU diseñado para un razonamiento enredado, solo para ceder a información estática. Esto sucede millones de veces al día. Cada búsqueda desperdicia ciclos e infla los costos de infraestructura.
DeepSeek investigación recientemente publicada sobre "memoria condicional" aborda esta restricción arquitectónica directamente. El trabajo presenta Engram, un módulo que separa la recuperación de patrones estáticos del razonamiento dinámico. Ofrece resultados que desafían las suposiciones sobre para qué sirve efectivamente la memoria en las redes neuronales. El artículo fue coautor de búsqueda profunda fundador Liang Wenfeng.
A través de experimentos sistemáticos, DeepSeek encontró el inmovilidad inmejorable entre computación y memoria con un 75% de la escasa capacidad del maniquí asignada al razonamiento dinámico y un 25% a búsquedas estáticas. Este sistema de memoria mejoró el razonamiento más que la recuperación de conocimientos.
Los puntos de narración de razonamiento enredado aumentaron del 70 % al 74 % de precisión, mientras que las pruebas centradas en el conocimiento mejoraron del 57 % al 61 %. Estas mejoras provinieron de pruebas que incluyen Big-Bench Hard, ARC-Challenge y MMLU.
La investigación llega en un momento en que las empresas enfrentan una presión cada vez viejo para implementar sistemas de IA más capaces mientras navegan por las limitaciones de memoria de la GPU y los costos de infraestructura. El enfoque de DeepSeek ofrece un camino potencial a seguir al repensar fundamentalmente cómo se deben disponer los modelos.
Cómo la memoria condicional resuelve un problema diferente al de la memoria agente y RAG
Los sistemas de memoria agente, a veces denominados memoria contextual, como Comprensión retrospectiva, Memoso memp — centrarse en la memoria episódica. Almacenan registros de conversaciones pasadas, preferencias del legatario e historial de interacciones. Estos sistemas ayudan a los agentes a amparar el contexto entre sesiones y ilustrarse de la experiencia. Pero son externos al avance del maniquí y no optimizan la forma en que el maniquí procesa internamente los patrones lingüísticos estáticos.
Para Chris Latimer, fundador y director ejecutante de Vectorize, que desarrolló Hindsight, el enfoque de memoria condicional utilizado en Engram resuelve un problema diferente al de la memoria de IA agente.
"No resuelve el problema de conectar agentes a la memoria externa, como historiales de conversaciones y almacenes de conocimiento," Latimer dijo a VentureBeat. "Está más orientado a exprimir el rendimiento de los modelos más pequeños y emplear más los escasos capital de la GPU."
La memoria condicional aborda un problema fundamental: los transformadores carecen de una primitiva de búsqueda de conocimiento nativa. Al procesar texto, deben afectar la recuperación de patrones estáticos mediante costosos cálculos neuronales en múltiples capas. Estos patrones incluyen entidades con nombre, terminología técnica y frases comunes.
El artículo de DeepSeek ilustra esto con un ejemplo concreto. Reconociendo "Diana, princesa de Gales" requiere consumir múltiples capas de atención y redes de feedback para componer funciones progresivamente. Básicamente, el maniquí utiliza circuitos lógicos dinámicos y profundos para realizar lo que debería ser una simple búsqueda en una tabla hash. Es como usar una calculadora para recapacitar su número de teléfono en puesto de simplemente buscarlo.
"El problema es que Transformer carece de la capacidad de “búsqueda de conocimientos nativos”," escriben los investigadores. "Muchas tareas que deberían resolverse en tiempo O(1), como la recuperación, deben “simularse para su recuperación” mediante una gran cantidad de cálculos, lo cual es muy ineficiente."
Cómo funciona la memoria condicional
Engrama presenta "memoria condicional" para trabajar adyacente con el cálculo condicional del MoE.
El mecanismo es sencillo. El módulo toma secuencias de dos o tres tokens y utiliza funciones hash para buscarlas en una tabla de incrustación masiva. La recuperación ocurre en tiempo constante, independientemente del tamaño de la tabla.
Pero los patrones recuperados necesitan ser filtrados. Una búsqueda hash para "Manzana" puede chocar con contenido no relacionado, o la palabra puede significar la fruta en puesto de la empresa. Engram resuelve esto con un mecanismo de compuerta. La comprensión coetáneo del contexto del maniquí (acumulada a través de capas de atención anteriores) actúa como un filtro. Si la memoria recuperada contradice el contexto coetáneo, la puerta la suprime. Si encaja, la puerta lo deja producirse.
El módulo no se aplica en todas las capas. La ubicación estratégica equilibra las ganancias de rendimiento con la latencia del sistema.
Este diseño de sistema dual plantea una pregunta crítica: ¿cuánta capacidad debería tener cada uno? El hallazgo secreto de DeepSeek: la división óptima es del 75 al 80 % para la computación y del 20 al 25 % para la memoria. Las pruebas encontraron que el MoE puro (100% de cálculo) resultó subóptimo. Demasiado cálculo desperdicia profundidad reconstruyendo patrones estáticos; demasiada memoria pierde capacidad de razonamiento.
Eficiencia de la infraestructura: el bypass de la memoria de la GPU
Quizás la contribución más pragmática de Engram sea su diseño consciente de la infraestructura. A diferencia del enrutamiento dinámico de MoE, que depende de estados ocultos en tiempo de ejecución, los índices de recuperación de Engram dependen solamente de secuencias de tokens de entrada. Esta naturaleza determinista permite una organización de captación previa y superposición.
"El desafío es que la memoria de la GPU es limitada y costosa, por lo que usar modelos más grandes resulta costoso y más difícil de implementar." dijo Latimer. "La idea inteligente detrás de Engram es amparar el maniquí principal en la GPU, pero descargar una gran parte de la información almacenada del maniquí en una memoria separada en la RAM habitual, que el maniquí puede usar encajado a tiempo."
Durante la inferencia, el sistema puede recuperar de forma asíncrona incrustaciones de la memoria de la CPU del host a través de PCIe. Esto sucede mientras la GPU calcula los bloques transformadores anteriores. La ubicación estratégica de capas aprovecha el cálculo de las primeras capas como un búfer para tapar la latencia de la comunicación.
Los investigadores demostraron esto con una tabla de incrustación de 100B de parámetros completamente descargada en la DRAM alojada. Lograron penalizaciones de rendimiento inferiores al 3%. Esta desvinculación del almacenamiento de la computación aborda una restricción empresarial crítica, ya que la memoria de gran pancho de costado de la GPU sigue siendo costosa y escasa.
Qué significa esto para la implementación de la IA empresarial
Para las empresas que evalúan estrategias de infraestructura de IA, los hallazgos de DeepSeek sugieren varias ideas prácticas:
1. Las arquitecturas híbridas superan a los enfoques puros. La ley de asignación 75/25 indica que los modelos óptimos deberían dividir la escasa capacidad entre computación y memoria.
2. Los costos de infraestructura pueden producirse de la GPU a la memoria. Si las arquitecturas de estilo Engram resultan viables en producción, los patrones de inversión en infraestructura podrían cambiar. La capacidad de juntar más de 100 mil millones de parámetros en la memoria de la CPU con una sobrecarga mínima sugiere que las configuraciones ricas en memoria y moderadas en computación pueden ofrecer un mejor rendimiento por dólar que el escalado puro de GPU.
3. Las mejoras en el razonamiento superan las ganancias en conocimiento. El sorprendente hallazgo de que el razonamiento beneficia más que la recuperación de conocimientos sugiere que el valía de la memoria se extiende más allá de los casos de uso obvios.
Para las empresas que lideran la apadrinamiento de la IA, Engram demuestra que la próxima frontera puede no ser simplemente modelos más grandes. Son elecciones arquitectónicas más inteligentes las que respetan la distinción fundamental entre conocimiento pasivo y razonamiento dinámico. La investigación sugiere que los sistemas de IA óptimos se parecerán cada vez más a las arquitecturas híbridas.
Las organizaciones que esperan adoptar la IA más delante en el ciclo deberían monitorear si los principales proveedores de modelos incorporan principios de memoria condicional en sus arquitecturas. Si la ley de asignación 75/25 se cumple en todas las escalas y dominios, la próxima vivientes de modelos básicos puede ofrecer un rendimiento de razonamiento sustancialmente mejor a menores costos de infraestructura.





