Los investigadores incorporaron aceleraciones de inferencia 3x directamente en pesos LLM, sin decodificación especulativa

A medida que los flujos de trabajo de IA agentes multiplican el costo y la latencia de las largas cadenas de razonamiento, un equipo de la Universidad de Maryland, los…

El nuevo entorno de agentes coincide con los sistemas de IA diseñados por humanos y agrega cero costos de inferencia para su implementación

Los agentes creados sobre los modelos actuales a menudo fallan con cambios simples (una nueva biblioteca, una modificación del flujo de trabajo) y requieren un ingeniero humano para solucionarlo. Ese…

Los costos de inferencia de IA se redujeron hasta 10 veces en Blackwell de Nvidia, pero el hardware es solo la parte de la ecuación

Estrechar el costo de la inferencia suele ser una combinación de hardware y software. Un nuevo observación publicado el jueves por Nvidia detalla cómo cuatro proveedores de inferencia líderes informan…

La startup de inferencia de IA Modal Labs está en conversaciones para cobrar una valoración de 2.500 millones de dólares, dicen las fuentes

Modal Labs, una startup especializada en infraestructura de inferencia de IA, está en proceso de suscitar una nueva ronda con una valoración de cerca de de 2.500 millones de dólares,…

TTT-Discover optimiza los núcleos de GPU 2 veces más rápido que los expertos humanos, mediante entrenamiento durante la inferencia

Investigadores de Stanford, Nvidia y Together AI han desarrollado una nueva técnica que puede descubrir nuevas soluciones a problemas muy complejos. Por ejemplo, lograron optimizar un kernel de GPU crítico…

Microsoft anuncia un nuevo y potente chip para la inferencia de IA

Microsoft ha anunciado el extensión de su postrero chip, el Maia 200, que la compañía describe como un heroína de batalla de silicio diseñado para resquilar la inferencia de IA.…

Fuentes: El plan SGLang se convierte en RadixArk con una valoración de 400 millones de dólares a medida que explota el mercado de inferencia

Está surgiendo un patrón en el mundo de la infraestructura de IA: las herramientas populares de código despejado se están transformando en nuevas empresas respaldadas por caudal de aventura por…

El nuevo método ‘Test-Time Training’ permite a la IA seguir aprendiendo sin aumentar los costos de inferencia

Un nuevo estudio realizado por investigadores de la Universidad de Stanford y Nvidia propone una forma para que los modelos de IA sigan aprendiendo a posteriori de la implementación, sin…

Nvidia vara la supercomputadora de IA Orilla Rubin NVL72 en CES: promete un rendimiento de inferencia hasta 5 veces anciano y un costo por token 10 veces beocio que Blackwell, arreglado en el segundo semestre de 2026

La IA está en todas partes en CES 2026 y las GPU de Nvidia están en el centro del universo de la IA en expansión. Hoy, durante su discurso de…

Intel presenta Crescent Island, una GPU solo de inferencia con edificación Xe3P y 160 GB de memoria

Intel presentó formalmente el martes su GPU de centro de datos de próxima engendramiento diseñada explícitamente para ejecutar cargas de trabajo de inferencia, combinando 160 GB de memoria integrada LPDDR5X…