Razonamiento La IA no piensa en completo

Con solo unos pocos días para el WWDC 2025, publicó Apple Un nuevo estudio de IA Eso podría marcar un punto de inflexión para el futuro de la IA a medida que nos acercamos a AGI.

Apple creó pruebas que revelan que los modelos de IA de razonamiento disponibles para el manifiesto en existencia no razonan. Estos modelos producen resultados impresionantes en problemas matemáticos y otras tareas porque han trillado ese tipo de pruebas durante el entrenamiento. Han memorizado los pasos para resolver problemas o completar varias tareas que los usuarios pueden dar a un chatbot.

Pero las propias pruebas de Apple mostraron que estos modelos de IA no pueden adaptarse a problemas desconocidos y encontrar soluciones. Peor aún, la IA tiende a rendirse si no resuelve una tarea. Incluso cuando Apple proporcionó los algoritmos en las indicaciones, los chatbots aún no podían producirse las pruebas.

Los investigadores de Apple no usaron problemas matemáticos para evaluar si los modelos de IA Top pueden razonar. En cambio, recurrieron a rompecabezas para probar las habilidades de razonamiento de varios modelos.

El pruebas incluidos rompecabezas como Tower of Hanoi, brinco de checker, cruce de ríos y bloques. Apple evaluó tanto los modelos de verbo extenso (LLM) y los modelos de razonamiento grandes (LRMS) utilizando estos rompecabezas, ajustando los niveles de dificultad.

Los rompecabezas que Apple dio a los modelos de IA.
Los rompecabezas que Apple dio a los modelos de IA. Fuente de la imagen: Apple Inc.

Apple probó LLM como ChatGPT GPT-4, Claude 3.7 Sonnet y Deepseek V3. Para LRMS, probó ChatGpt O1, ChatGpt O3-Mini, Gemini, Claude 3.7 Sonnet Thinking y Deepseek R1.

Los científicos descubrieron que los LLM funcionaban mejor que los modelos de razonamiento cuando la dificultad era hacedero. LRMS lo hicieron mejor en dificultades medias. Una vez que las tareas alcanzaron el nivel duro, todos los modelos no pudieron completarlas.

Apple observó que los modelos de IA simplemente dejaron de resolver los rompecabezas en niveles más difíciles. La precisión no solo disminuyó gradualmente, se derrumbó directamente.

Comparación de precisión entre LLM y LRMS.
Comparación de precisión entre LLM y LRMS. Fuente de la imagen: Apple Inc.

El estudio sugiere que incluso los mejores modelos de IA de razonamiento en existencia no razonan cuando se enfrentan a rompecabezas desconocidos. La idea del “razonamiento” en este contexto es engañosa ya que estos modelos no están verdaderamente pensando.

Los investigadores de Apple agregaron que experimentos como el suyo podrían conducir a una investigación adicional destinada a desarrollar un mejor razonamiento de modelos de IA en el futuro.

Por otra parte, muchos de nosotros ya sospechamos que el razonamiento de los modelos de IA en existencia no piensan. AGI, o inteligencia militar fabricado, sería el tipo de IA que puede resolver las cosas por sí solo cuando se enfrenta a nuevos desafíos.

Igualmente señalaré el obvio ángulo de “uvas son agrias” aquí. El estudio de Apple podría ser un avance, claro. Pero llega en un momento en que Apple Intelligence no es verdaderamente competitivo con ChatGPT, Gemini y otros modelos de IA principales. Olvídate del razonamiento: Siri ni siquiera puede decirte qué mes es. Elegiría chatgpt o3 sobre Siri cualquier día.

El momento del extensión del estudio incluso es cuestionable. Apple está a punto de organizar su WWDC 2025 anual, y la IA no será el enfoque principal. Apple todavía sigue a Openai, Google y otras compañías de IA que han valiente modelos de razonamiento comercial. Eso no es necesariamente poco malo, especialmente cedido que Apple continúa publicando estudios que muestran su propia investigación e ideas en el campo.

Aún así, Apple básicamente dice que los modelos de AI de razonamiento no son tan capaces como la muchedumbre podría creer, solo días antaño de un evento en el que no tendrá ningún avance importante de IA para anunciar. Eso incluso está aceptablemente. Digo esto como un sucesor de iPhone desde hace mucho tiempo que todavía piensa que Apple Intelligence tiene potencial para ponerse al día.

Precisión y uso de tokens mientras intenta resolver los rompecabezas.
Precisión y uso de tokens mientras intenta resolver los rompecabezas. Fuente de la imagen: Apple Inc.

Los hallazgos del estudio son importantes, y estoy seguro de que otros intentarán verificarlos o desafiarlos. Algunos incluso podrían usar estas ideas para mejorar sus propios modelos de razonamiento. Aún así, se siente extraño ver a los modelos de AI de razonamiento de Apple ajustado antaño de WWDC.

Igualmente diré esto: como sucesor de ChatGPT O3, no me doy cuenta de los modelos de razonamiento, incluso si verdaderamente no pueden pensar. O3 es mi IA flagrante flagrante, y me gustan más sus respuestas que las otras opciones de chatgpt. Comete errores y alucinaciones, pero su “razonamiento” todavía se siente más musculoso de lo que los LLM básicos pueden hacer.

Related Posts

La programación de transmisión gratuita de marzo es tan buena que hace que las suscripciones parezcan opcionales

Entre Netflix, Hulu, Disney+, HBO Max, Paramount+, Peacock y más, transmitir tus programas y películas favoritos puede resultar complicado y costoso. Pero existe todo un mundo de opciones de transmisión…

Google Play Games para PC recibirá más títulos premium y podrá realizar compras cruzadas con Android

Transacción una vez (o más) para pugnar en cualquier circunstancia Si acertadamente Google anunció el año pasado que abriría la puerta a todos los juegos de Android en Windows, las…

You Missed

¡Trofeo dominicana! República Dominicana vence 7-5 a Venezuela en el Clásico Mundial

¡Trofeo dominicana! República Dominicana vence 7-5 a Venezuela en el Clásico Mundial

Ataques de Israel en Teherán tras emanación de misiles desde Irán

Ataques de Israel en Teherán tras emanación de misiles desde Irán

¡Italia elimina a México del Clásico Mundial! Pasquantino pega tres jonrones en conquista 9-1

¡Italia elimina a México del Clásico Mundial! Pasquantino pega tres jonrones en conquista 9-1

Leonel Fernández, David Collado y Kelvin Cruz comparten revolcón durante solaz RD vs. Venezuela

Leonel Fernández, David Collado y Kelvin Cruz comparten revolcón durante solaz RD vs. Venezuela

Seúl liberará 22 millones de barriles de petróleo, una signo histórica, bajo plan de AIE

Seúl liberará 22 millones de barriles de petróleo, una signo histórica, bajo plan de AIE

La programación de transmisión gratuita de marzo es tan buena que hace que las suscripciones parezcan opcionales

La programación de transmisión gratuita de marzo es tan buena que hace que las suscripciones parezcan opcionales