

El fresco trabajo de investigación de IA de Apple “,”La ilusión del pensamiento“, Ha estado haciendo olas para su conclusión sólido: incluso los modelos de razonamiento egregio más avanzados (LRMS) colapsan en tareas complejas. Pero no todos están de acuerdo con ese enfoque.
Hoy, Alex Lawsen, un investigador de Open Philanthropy, publicó una refutación detallada argumentando que muchos de los hallazgos más accesorios de Apple se reducen a fallas de diseño experimentales, no a los límites de razonamiento fundamental. El documento además acredita el maniquí Claude Opus de Anthrope como su coautor.
La refutación: menos “ilusión de pensamiento”, más “ilusión de evaluación”
La crítica de Lawsen, titulada acertadamente “La ilusión de la ilusión del pensamiento“, No niega que los LRM de hoy luchen con rompecabezas de planificación complejos. Pero argumenta que el documento de Apple confunde limitaciones prácticas de producción y configuraciones de evaluación defectuosa con una rotura de razonamiento existente.
Aquí están los tres asuntos principales de la ley de leyes:
- Los límites presupuestarios del token se ignoraron en la interpretación de Apple:
En el punto en que Apple afirma que los modelos “colapsan” en los rompecabezas de la Torre de Hanoi con más de 8 discos, modelos como Claude ya estaban aumentando contra sus techos de salida de token. Lawsen apunta a futuro reales donde los modelos indican explícitamente: “El patrón continúa, pero me detendré aquí para custodiar tokens”. - Los rompecabezas imposibles se contaron como fallas:
Según los informes, la prueba de cruce de River de Apple incluyó instancias de rompecabezas insoluble (por ejemplo, más de 6 combinaciones de actores/agentes con una capacidad de brinco que matemáticamente no puede transportar a todos a través del río bajo las limitaciones dadas). Lawsen candela la atención sobre el hecho de que los modelos fueron penalizados por registrar eso y negarse a resolverlos. - Los scripts de evaluación no distinguieron entre la rotura del razonamiento y el truncamiento de la salida:
Apple utilizó tuberías automatizadas que juzgaban modelos sólo por listas de movimientos completas y enumeradas, incluso en los casos en que la tarea excedería el linde de token. Lawsen argumenta que esta evaluación rígida clasificó injustamente los resultados parciales o estratégicos como fallas totales.
Prueba alternativa: deje que el maniquí escriba el código en su extensión
Para hacer una copia de seguridad de su punto, Lawsen Reran es un subconjunto de las pruebas de la Torre de Hanoi utilizando un formato diferente: pedirle a los modelos que generen una función Lua recursiva que imprima la posibilidad en extensión de enumerar exhaustivamente todos los movimientos.
El resultado? Modelos como Claude, Gemini y O3 de OpenAI no tuvieron problemas para producir soluciones algorítmicamente correctas para problemas de Hanoi de 15 discos, mucho más allá de la complejidad donde Apple informó cero éxito.
Conclusión de Lawsen: cuando elimina las limitaciones de producción sintético, los LRM parecen perfectamente capaces de razonar sobre las tareas de inscripción complejidad. Al menos en términos de coexistentes de cálculo.
Por qué este debate es importante
A primera sagacidad, esto puede sonar como la típica investigación de IA Nitpicking. Pero las apuestas aquí son más grandes que eso. El artículo de Apple ha sido ampliamente citado como una prueba de que los LLM de hoy en día carecen de capacidad de razonamiento escalable, que, como argumenté aquí, podría no activo sido la forma más lucha de enmarcar el estudio en primer extensión.
La refutación de Lawsen sugiere que la verdad puede ser más matizada: sí, la lucha por LLMS con la enumeración de token de forma larga bajo las limitaciones de despliegue actuales, pero sus motores de razonamiento pueden no ser tan frágiles como lo indica el documento diferente. O mejor aún, como muchos dicho implica.
Por supuesto, nadie de esto permite que LRMS fuera el habilidad. Incluso Lawsen reconoce que la verdadera divulgación algorítmica sigue siendo un desafío, y sus requisitos aún son preliminares. Asimismo presenta sugerencias sobre en qué funciona el futuro en el tema que quisiera centrarse:
- Evaluaciones de diseño que distinguen entre la capacidad de razonamiento y las restricciones de salida
- Demostrar la solvabilidad de rompecabezas antaño de evaluar el rendimiento del maniquí
- Utilice métricas de complejidad que reflejen la dificultad computacional, no solo la largo de la posibilidad
- Considere múltiples representaciones de soluciones para separar la comprensión algorítmica de la ejecución
La pregunta no es si los LRM pueden razonar, sino si nuestras evaluaciones pueden distinguir el razonamiento de la escritura.
En otras palabras, su punto central es claro: antaño de resolver el razonamiento muerto a la aparición, podría equivaler la pena demostrar los estándares por los cuales se está mediante.
H/T: Fabrício Carraro.