
Los investigadores de Apple han probado Modelos avanzados de razonamiento de IA, que se llaman grandes modelos de razonamiento (LRM), en entornos de rompecabezas controlados y descubrieron que, si acertadamente superan a los modelos de modelos de jerigonza sobresaliente (LLMS) ‘típico’ en tareas moderadamente complejas, uno y otro fallan completamente a medida que aumenta la complejidad.
Los investigadores de Apple, que no están exactamente a la vanguardia del mejora de la IA, creen que los LRM y LLM actuales tienen límites fundamentales en su capacidad para ampliar el razonamiento, o más acertadamente pensar como lo hacen los humanos.
Los investigadores de Apple estudiaron cómo los modelos de IA avanzados, el pensamiento del soneto Claude 3.7 y los LRM de Deepseek-R1, manejan tareas cada vez más complejas de resolución de problemas. Se movieron más allá de los puntos de remisión de matemáticas y codificación típico y diseñaron entornos de rompecabezas controlados, como Tower of Hanoi y River Crossing, donde podrían ajustar con precisión la complejidad de los problemas. Su objetivo era evaluar no solo las respuestas finales, sino todavía los procesos de razonamiento interno de estos modelos, comparándolos con modelos de jerigonza grandes típico en condiciones computacionales iguales. A través de los rompecabezas, pretendían descubrir las verdaderas fortalezas y los límites fundamentales del razonamiento de IA.
Los investigadores de Apple descubrieron que los LRM funcionan de forma diferente dependiendo de la complejidad del problema. En tareas simples, las LLM típico, sin mecanismos de razonamiento explícitos, fueron más precisos y eficientes y entregaron mejores resultados con menos fortuna de cálculo. Sin requisa, a medida que la complejidad del problema aumentó a un nivel moderado, los modelos equipados con un razonamiento estructurado, como la provisión de la esclavitud de pensamiento, obtuvieron la superioridad y superaron a sus homólogos no iniciales. Cuando la complejidad creció más, uno y otro tipos de modelos fallaron por completo: su precisión cayó a cero independientemente de los fortuna de enumeración disponibles. (Tenga en cuenta que el pensamiento del soneto Claude 3.7 y los lrms Deepseek-R1 tienen limitaciones cuando se proxenetismo de su entrenamiento).
Un descomposición más profundo de las trazas de razonamiento reveló ineficiencias y un comportamiento inesperado. Inicialmente, los modelos de razonamiento utilizaron secuencias de pensamiento más largas a medida que los problemas se volvieron más difíciles, pero cerca del punto de rotura, sorprendentemente acortaron su esfuerzo de razonamiento incluso cuando tenían suficiente capacidad de cálculo. Adicionalmente, incluso cuando se proporciona explícitamente los algoritmos correctos, los modelos no pudieron ejecutar de forma confiable instrucciones paso a paso en tareas complejas, exponiendo las debilidades en el cálculo sensato. El estudio todavía encontró que el rendimiento del maniquí varió significativamente entre los rompecabezas familiares y menos comunes, lo que sugiere que el éxito a menudo dependía de la sencillez de los datos de capacitación en espacio de las verdaderas habilidades de razonamiento generalizable.
Seguir Hardware de Tom en Google News Para obtener nuestras telediario, descomposición y revisiones actualizadas en sus feeds. Asegúrese de hacer clic en el renuevo Forzar.