Cuando el razonamiento de IA sale mal: la investigación de Microsoft muestra que más tokens pueden significar más problemas


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Los modelos de idiomas grandes (LLM) son cada vez más capaces de un razonamiento confuso a través de la “escalera de tiempo de inferencia”, un conjunto de técnicas que asignan más bienes computacionales durante la inferencia para suscitar respuestas. Sin retención, un nuevo estudio De Microsoft Research revela que la efectividad de estos métodos de escalera no es universal. Los aumentos de rendimiento varían significativamente en diferentes modelos, tareas y complejidades de problemas.

El hallazgo central es que simplemente arrojar más cálculo a un problema durante la inferencia no garantiza mejores o más resultados eficientes. Los hallazgos pueden ayudar a las empresas a comprender mejor la volatilidad de los costos y la confiabilidad del maniquí mientras buscan integrar el razonamiento reformista de IA en sus aplicaciones.

Poner métodos de escalera a la prueba

El equipo de investigación de Microsoft realizó un extenso disección empírico en nueve modelos fundamentales de última reproducción. Esto incluía modelos “convencionales” como GPT-4O, Sonnet Claude 3.5, Gemini 2.0 Pro y Apasionamiento 3.1 405b, así como modelos específicamente ajustados para un razonamiento mejorado a través de una escalera de tiempo de inferencia. Esto incluyó el O1 y O3-Mini de OpenAI, el soneto Claude 3.7 de Anthrope, el pensamiento Gemini 2 Flash Gemini 2 y Deepseek R1.

Evaluaron estos modelos utilizando tres enfoques de escalera de tiempo de inferencia distintos:

  1. Condena de pensamiento unificado (cot): El método fundamental donde se le solicita al maniquí que responda paso a paso.
  2. Escalera paralela: El maniquí genera múltiples respuestas independientes para la misma pregunta y utiliza un agregador (como el voto mayoritario o la selección de la respuesta con mejor puntuación) para salir a un resultado final.
  3. Escalera secuencial: El maniquí genera iterativamente una respuesta y utiliza comentarios de un crítico (potencialmente del maniquí en sí) para refinar la respuesta en los intentos posteriores.

Estos enfoques se probaron en ocho conjuntos de datos de narración desafiantes que cubren una amplia escala de tareas que se benefician de la resolución de problemas paso a paso: razonamiento de matemáticas y STEM (AIME, Omni-Math, GPQA), calendario (planificación de calendario), problemas NP-Hard (3SAT, TSP), navegación (MAZA) y razonamiento spacial (spacialmap).

Varios puntos de narración incluyeron problemas con niveles de dificultad variable, lo que permite una comprensión más matizada de cómo la escalera se comporta a medida que los problemas se vuelven más difíciles.

“La disponibilidad de etiquetas de dificultad para Omni-Math, TSP, 3SAT y BA-Calendar nos permite analizar cómo la precisión y el uso de la token con dificultad en la escalera de tiempo de inferencia, que es una perspectiva que aún no se aplica”, escriben los investigadores “, los investigadores escriben”, el papel detallando sus hallazgos.

Los investigadores evaluaron el razonamiento de la frontera de Pareto de LLM analizando tanto la precisión como el costo computacional (es opinar, el número de tokens generados). Esto ayuda a identificar cómo los modelos de eficiencia logran sus resultados.

Escala de tiempo de inferencia Pareto
Escalado de tiempo de inferencia Crédito de Pareto Frontier: ARXIV

Incluso introdujeron la medida de “brecha convencional a la conducción”, que compara el mejor rendimiento posible de un maniquí convencional (utilizando una selección ideal de “mejor de N”) con el rendimiento promedio de un maniquí de razonamiento, estimando las ganancias potenciales alcanzables a través de mejores técnicas de entrenamiento o comprobación.

Más cuenta no siempre es la respuesta

El estudio proporcionó varias ideas cruciales que desafían suposiciones comunes sobre la escalera de tiempo de inferencia:

Los beneficios varían significativamente: Mientras que los modelos sintonizados para el razonamiento generalmente superan a los convencionales en estas tareas, el extremo de mejoramiento varía mucho según el dominio y la tarea específicos. Las ganancias a menudo disminuyen a medida que aumenta la complejidad del problema. Por ejemplo, las mejoras de rendimiento vistas en los problemas matemáticos no siempre se traducen por igual a razonamiento irrefutable o tareas de planificación.

La ineficiencia del token está rico: Los investigadores observaron una suscripción variabilidad en el consumo de tokens, incluso entre modelos que logran una precisión similar. Por ejemplo, en el punto de narración de matemáticas AIME 2025, Deepseek-R1 usó más de cinco veces más tokens que el soneto Claude 3.7 para una precisión promedio aproximadamente comparable.

Más fichas no conducen a una longevo precisión: Al contrario de la idea intuitiva de que las cadenas de razonamiento más largas significan un mejor razonamiento, el estudio encontró que esto no siempre es cierto. “Sorprendentemente, incluso observamos que las generaciones más largas en relación con el mismo maniquí a veces pueden ser un indicador de modelos que luchan, en circunscripción de una consejo mejorada”, dice el documento. “Del mismo modo, al comparar diferentes modelos de razonamiento, el uso de token más detención no siempre se asocia con una mejor precisión. Estos hallazgos motivan la requisito de enfoques de escalera más propósito y rentable”.

Costo no determinismo: Quizás lo más preocupante para los usuarios empresariales, las consultas repetidas al mismo maniquí para el mismo problema pueden dar circunscripción a un uso de token en extremo variable. Esto significa que el costo de ejecutar una consulta puede fluctuar significativamente, incluso cuando el maniquí proporciona constantemente la respuesta correcta.

Varianza en las salidas del modelo
Varianza en la largo de respuesta (los picos muestran una varianza más pequeña) Crédito: ARXIV

El potencial en los mecanismos de comprobación: El rendimiento de la escalera mejoró constantemente en todos los modelos y puntos de narración cuando se simula con un “verificador valentísimo” (utilizando los mejores resultados de N).

Los modelos convencionales a veces coinciden con los modelos de razonamiento: Al aumentar significativamente las llamadas de inferencia (hasta 50 veces más en algunos experimentos), los modelos convencionales como GPT-4O a veces pueden tocar los niveles de rendimiento de los modelos de razonamiento dedicados, particularmente en tareas menos complejas. Sin retención, estas ganancias disminuyeron rápidamente en entornos en extremo complejos, lo que indica que la escalera de fuerza bruta tiene sus límites.

Escalado de tiempo de inferencia GPT-4O
En algunas tareas, la precisión de GPT-4O continúa mejorando con la escalera paralela y secuencial. Crédito: ARXIV

Implicaciones para la empresa

Estos hallazgos tienen un peso significativo para los desarrolladores y los adoptantes empresariales de LLM. La cuestión del “costo no determinante” es particularmente afectado y dificulta el presupuesto. Como señalan los investigadores, “idealmente, los desarrolladores y usuarios preferirían modelos para los cuales la desviación unificado del uso de token por instancia es pérdida para la previsibilidad de los costos”.

“El perfil que hacemos en (el estudio) podría ser útil para los desarrolladores como útil para nominar qué modelos son menos volátiles para el mismo aviso o para diferentes indicaciones”, dijo a VentureBeat de Besmira Nushi, regente principal de investigación de Microsoft Research. “Idealmente, uno querría nominar un maniquí que tenga una desviación unificado pérdida para las entradas correctas”.

Los modelos que alcanzan su punto mayor a la izquierda generan constantemente el mismo número de tokens en el crédito de tarea cubo: ARXIV

El estudio incluso proporciona buenas ideas sobre la correlación entre la precisión de un maniquí y la largo de la respuesta. Por ejemplo, el futuro diagrama muestra que las consultas matemáticas por encima de ~ 11,000 tokens tienen una posibilidad muy escasa de ser correctos, y esas generaciones deben detenerse en ese punto o reiniciarse con algunos comentarios secuenciales. Sin retención, Nushi señala que los modelos que permiten estas mitigaciones post hoc incluso tienen una separación más limpia entre muestras correctas e incorrectas.

“En última instancia, incluso es responsabilidad de los constructores de modelos pensar en someter la precisión y el costo del no determinismo, y esperamos que gran parte de esto suceda a medida que los métodos se vuelven más maduros”, dijo Nushi. “Pegado al costo del no determinismo, incluso se aplica el no determinismo de la precisión”.

Otro hallazgo importante es el aumento constante de rendimiento de los verificadores perfectos, que destaca un dominio crítica para el trabajo futuro: construir mecanismos de comprobación robustos y ampliamente aplicables.

“La disponibilidad de verificadores más fuertes puede tener diferentes tipos de impacto”, dijo Nushi, como mejorar los métodos de entrenamiento fundamental para el razonamiento. “Si se usa de modo apto, estos incluso pueden acortar las trazas de razonamiento”.

Los verificadores fuertes incluso pueden convertirse en una parte central de las soluciones de IA de Enterprise Agentic. Muchas partes interesadas empresariales ya tienen tales verificadores en su circunscripción, que pueden escasear ser reutilizados para soluciones más agentes, como solucionadores SAT, verificadores de validez transporte, etc.

“Las preguntas para el futuro son cómo tales técnicas existentes se pueden combinar con interfaces impulsadas por IA y cuál es el habla que conecta los dos”, dijo Nushi. “La requisito de conectar a los dos proviene del hecho de que los usuarios no siempre formularán sus consultas de modo formal, querrán usar una interfaz de habla natural y esperar las soluciones en un formato similar o en una entusiasmo final (por ejemplo, proponer una invitación de reunión)”.


Related Posts

En torno a del 15% de las tierras de cultivo mundiales contaminadas con metales tóxicos, dicen los investigadores

En torno a de un sexto de las tierras de cultivo globales está contaminada por metales pesados ​​tóxicos, los investigadores han estimado, con hasta 1.400 millones de personas que viven…

Star Wars Zero Company completamente presentado, un nuevo ocio de tácticas de estilo XCOM de EA

Hoy temprano en Star Wars Celebration Japan, EA echó un primer vistazo a un nuevo Star Wars Coyuntura que sale de su colaboración con Lucasfilm Games. Al igual que el…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

El memoria de defunción y la tragedia del Jet Set | AlMomento.net

El memoria de defunción y la tragedia del Jet Set | AlMomento.net

Qué pasó el Sábado Santo

Qué pasó el Sábado Santo

Cibao conserva invicto tras igualada frente a Delfines en la LDF | AlMomento.net

Cibao conserva invicto tras igualada frente a Delfines en la LDF | AlMomento.net

En torno a del 15% de las tierras de cultivo mundiales contaminadas con metales tóxicos, dicen los investigadores

En torno a del 15% de las tierras de cultivo mundiales contaminadas con metales tóxicos, dicen los investigadores

Empresarios respaldan medidas migratorias de Abinader

Empresarios respaldan medidas migratorias de Abinader

“A pesar de todo se rehúsa a dejar de palpitar”

“A pesar de todo se rehúsa a dejar de palpitar”