Google PM abre el agente Always On Memory, abandonando las bases de datos vectoriales por la memoria persistente impulsada por LLM

Directivo senior de productos de IA de Google Shubham Saboo ha convertido uno de los problemas más espinosos en el diseño de agentes en un control de ingeniería de código…

La nueva técnica de compactación de distinción KV reduce la memoria LLM 50 veces sin pérdida de precisión

Las aplicaciones empresariales de IA que manejan documentos grandes o tareas a derrochador plazo se enfrentan a un dificultoso cuello de botella en la memoria. A medida que el contexto…

Reemplacé docenas de pestañas del navegador con una instancia de LLM nave

Mi navegador parece un desastre la viejo parte del tiempo. Pestañas para artículos para repasar, más pestañas para herramientas para probar, un par más para investigar o comprender poco pequeño:…

Firefox 148 presenta el interruptor de extinguido de IA prometido para personas que no están interesadas en LLM

Esquema Dile a Firefox “No, gracias” a los LLM: el interruptor de extinguido de IA con un solo clic elimina todas las mejoras de IA. Voltearlo desactiva ChatGPT y los…

Los investigadores incorporaron aceleraciones de inferencia 3x directamente en pesos LLM, sin decodificación especulativa

A medida que los flujos de trabajo de IA agentes multiplican el costo y la latencia de las largas cadenas de razonamiento, un equipo de la Universidad de Maryland, los…

Uno de los mejores LLM para programación ahora es aún mejor y puedes probarlo improcedente

Extracto Claude Sonnet 4.6 ahora está acondicionado para todos los niveles, incluidos los usuarios gratuitos. Presenta importantes mejoras de codificación y agentes con respecto a Sonnet 4.5; A menudo se…

La nueva técnica de Nvidia reduce 8 veces los costos de razonamiento de LLM sin perder precisión

Investigadores de Nvidia han desarrollado una técnica que puede ceñir hasta ocho veces los costos de memoria del razonamiento de modelos de jerigonza grandes. Su técnica, citación dispersión de la…

El nuevo método de ajuste del MIT permite a los LLM ilustrarse nuevas habilidades sin perder las antiguas

Cuando las empresas ajustan los LLM para nuevas tareas, corren el aventura de romper todo lo que los modelos ya saben. Esto obliga a las empresas a apoyar modelos separados…

Puedes (y debes) ejecutar un pequeño LLM en tu teléfono Android

He estado incursionando con LLM locales en mi computadora desde hace un tiempo. Todo empezó como un hobby cuando ejecuté DeepSeek-R1 localmente en mi Mac y ahora es una parte…

Encontrar el LLM correcto para tu GPU parece un arte, pero finalmente lo logré

Sin duda, el estudios espontáneo ha despegado, incluso si muchos están cansados ​​de adivinar y oír sobre inteligencia fabricado (IA). Casi todo lo que se vende hoy en día tiene…