Los investigadores incorporaron aceleraciones de inferencia 3x directamente en pesos LLM, sin decodificación especulativa

A medida que los flujos de trabajo de IA agentes multiplican el costo y la latencia de las largas cadenas de razonamiento, un equipo de la Universidad de Maryland, los…