El nuevo artículo retrocede en el estudio de colapso de razonamiento de Apple’s LLM ‘

El fresco trabajo de investigación de IA de Apple “,”La ilusión del pensamiento“, Ha estado haciendo olas para su conclusión sólido: incluso los modelos de razonamiento egregio más avanzados (LRMS) colapsan en tareas complejas. Pero no todos están de acuerdo con ese enfoque.

Hoy, Alex Lawsen, un investigador de Open Philanthropy, publicó una refutación detallada argumentando que muchos de los hallazgos más accesorios de Apple se reducen a fallas de diseño experimentales, no a los límites de razonamiento fundamental. El documento además acredita el maniquí Claude Opus de Anthrope como su coautor.

La refutación: menos “ilusión de pensamiento”, más “ilusión de evaluación”

La crítica de Lawsen, titulada acertadamente “La ilusión de la ilusión del pensamiento“, No niega que los LRM de hoy luchen con rompecabezas de planificación complejos. Pero argumenta que el documento de Apple confunde limitaciones prácticas de producción y configuraciones de evaluación defectuosa con una rotura de razonamiento existente.

Aquí están los tres asuntos principales de la ley de leyes:

  1. Los límites presupuestarios del token se ignoraron en la interpretación de Apple:
    En el punto en que Apple afirma que los modelos “colapsan” en los rompecabezas de la Torre de Hanoi con más de 8 discos, modelos como Claude ya estaban aumentando contra sus techos de salida de token. Lawsen apunta a futuro reales donde los modelos indican explícitamente: “El patrón continúa, pero me detendré aquí para custodiar tokens”.
  2. Los rompecabezas imposibles se contaron como fallas:
    Según los informes, la prueba de cruce de River de Apple incluyó instancias de rompecabezas insoluble (por ejemplo, más de 6 combinaciones de actores/agentes con una capacidad de brinco que matemáticamente no puede transportar a todos a través del río bajo las limitaciones dadas). Lawsen candela la atención sobre el hecho de que los modelos fueron penalizados por registrar eso y negarse a resolverlos.
  3. Los scripts de evaluación no distinguieron entre la rotura del razonamiento y el truncamiento de la salida:
    Apple utilizó tuberías automatizadas que juzgaban modelos sólo por listas de movimientos completas y enumeradas, incluso en los casos en que la tarea excedería el linde de token. Lawsen argumenta que esta evaluación rígida clasificó injustamente los resultados parciales o estratégicos como fallas totales.

Prueba alternativa: deje que el maniquí escriba el código en su extensión

Para hacer una copia de seguridad de su punto, Lawsen Reran es un subconjunto de las pruebas de la Torre de Hanoi utilizando un formato diferente: pedirle a los modelos que generen una función Lua recursiva que imprima la posibilidad en extensión de enumerar exhaustivamente todos los movimientos.

El resultado? Modelos como Claude, Gemini y O3 de OpenAI no tuvieron problemas para producir soluciones algorítmicamente correctas para problemas de Hanoi de 15 discos, mucho más allá de la complejidad donde Apple informó cero éxito.

Conclusión de Lawsen: cuando elimina las limitaciones de producción sintético, los LRM parecen perfectamente capaces de razonar sobre las tareas de inscripción complejidad. Al menos en términos de coexistentes de cálculo.

Por qué este debate es importante

A primera sagacidad, esto puede sonar como la típica investigación de IA Nitpicking. Pero las apuestas aquí son más grandes que eso. El artículo de Apple ha sido ampliamente citado como una prueba de que los LLM de hoy en día carecen de capacidad de razonamiento escalable, que, como argumenté aquí, podría no activo sido la forma más lucha de enmarcar el estudio en primer extensión.

La refutación de Lawsen sugiere que la verdad puede ser más matizada: sí, la lucha por LLMS con la enumeración de token de forma larga bajo las limitaciones de despliegue actuales, pero sus motores de razonamiento pueden no ser tan frágiles como lo indica el documento diferente. O mejor aún, como muchos dicho implica.

Por supuesto, nadie de esto permite que LRMS fuera el habilidad. Incluso Lawsen reconoce que la verdadera divulgación algorítmica sigue siendo un desafío, y sus requisitos aún son preliminares. Asimismo presenta sugerencias sobre en qué funciona el futuro en el tema que quisiera centrarse:

  1. Evaluaciones de diseño que distinguen entre la capacidad de razonamiento y las restricciones de salida
  2. Demostrar la solvabilidad de rompecabezas antaño de evaluar el rendimiento del maniquí
  3. Utilice métricas de complejidad que reflejen la dificultad computacional, no solo la largo de la posibilidad
  4. Considere múltiples representaciones de soluciones para separar la comprensión algorítmica de la ejecución

La pregunta no es si los LRM pueden razonar, sino si nuestras evaluaciones pueden distinguir el razonamiento de la escritura.

En otras palabras, su punto central es claro: antaño de resolver el razonamiento muerto a la aparición, podría equivaler la pena demostrar los estándares por los cuales se está mediante.

H/T: Fabrício Carraro.

FTC: Utilizamos ingresos que ganan enlaces de afiliados para automóviles. Más.

Related Posts

Los directores de Project Hail Mary, Phil Lord y Chris Miller, revelan las 4 mejores películas de ciencia ficción que han conocido, y una es una película de John Carpenter de la que nunca has pabellón platicar.

Tesina Ave María (PHM) será la última incorporación a la biblioteca de películas de ciencia ficción en constante expansión cuando llegue a los cines a finales de este mes. A…

Samsung dice que sus televisores Micro RGB probablemente no aumentarán su ciclo de sueño

Todos hemos escuchado el dicho: “las pantallas antiguamente de adormecerse son malas”. Sin incautación, de alguna forma, he estado mirando pantallas para irme a adormecerse a posteriori de un día…

You Missed

la historia del psicólogo preso que hoy estudia la mente de los feminicidas

la historia del psicólogo preso que hoy estudia la mente de los feminicidas

El pensamiento dicotómico

El pensamiento dicotómico

Los directores de Project Hail Mary, Phil Lord y Chris Miller, revelan las 4 mejores películas de ciencia ficción que han conocido, y una es una película de John Carpenter de la que nunca has pabellón platicar.

Los directores de Project Hail Mary, Phil Lord y Chris Miller, revelan las 4 mejores películas de ciencia ficción que han conocido, y una es una película de John Carpenter de la que nunca has pabellón platicar.

Mojtaba Jameneí herido tras ataques de Estados Unidos e Israel

Mojtaba Jameneí herido tras ataques de Estados Unidos e Israel

EEUU dice realizó un «poderoso» hostigamiento a una isla petrolera | AlMomento.net

EEUU dice realizó un «poderoso» hostigamiento a una isla petrolera | AlMomento.net

Samsung dice que sus televisores Micro RGB probablemente no aumentarán su ciclo de sueño

Samsung dice que sus televisores Micro RGB probablemente no aumentarán su ciclo de sueño