
Recientemente, ha habido mucho alboroto sobre la idea de que los grandes modelos de razonamiento (LRM) son incapaces de pensar. Esto se debe principalmente a un artículo de investigación publicado por Apple, "La ilusión del pensamiento" Apple sostiene que los LRM no deben poder pensar; en cambio, simplemente realizan una comparación de patrones. La evidencia que proporcionaron es que los LRM con razonamiento de prisión de pensamiento (CoT) no pueden realizar el cálculo utilizando un operación predefinido a medida que el problema crece.
Éste es un argumento fundamentalmente defectuoso. Si le pides a un humano que ya conoce el operación para resolver el problema de la Torre de Hanoi que resuelva un problema de la Torre de Hanoi con vigésimo discos, por ejemplo, es casi seguro que no lo hará. Según esa método, debemos concluir que los humanos siquiera pueden pensar. Sin incautación, este argumento sólo apunta a la idea de que no hay evidencia de que los LRM no puedan pensar. Esto por sí solo no significa ciertamente que los LRM puedan pensar, sólo que no podemos estar seguros de que no lo hagan.
En este artículo haré una afirmación más audaz: es casi seguro que los LRM pueden pensar. Digo “casi” porque siempre existe la posibilidad de que más investigaciones nos sorprendan. Pero creo que mi argumento es conveniente concluyente.
¿Qué es pensar?
Ayer de intentar comprender si los LRM pueden pensar, debemos precisar qué entendemos por pensamiento. Pero primero, debemos asegurarnos de que los humanos puedan pensar según la definición. Sólo consideraremos el pensamiento en relación con la resolución de problemas, que es motivo de controversia.
1. Representación del problema (lóbulos anterior y parietal)
Cuando piensas en un problema, el proceso involucra a tu corteza prefrontal. Esta región es responsable de la memoria de trabajo, la atención y las funciones ejecutivas, capacidades que le permiten tener presente el problema, dividirlo en subcomponentes y establecer objetivos. Su corteza parietal ayuda a codificar la estructura simbólica para problemas matemáticos o de acertijos.
2. Simulación mental (memoria morking y deje interior)
Esto tiene dos componentes: uno es un rizo auditivo que le permite murmurar consigo mismo, muy similar a la coexistentes CoT. La otra son las imágenes visuales, que le permiten manipular objetos visualmente. La geometría era tan importante para navegar por el mundo que desarrollamos capacidades especializadas para ella. La parte auditiva está vinculada al radio de Broca y a la corteza auditiva, ambas reutilizadas de los centros del idioma. La corteza visual y las áreas parietales controlan principalmente el componente visual.
3. Coincidencia y recuperación de patrones (hipocampo y lóbulos temporales)
Estas acciones dependen de experiencias pasadas y conocimientos almacenados en la memoria a dispendioso plazo:
-
El hipocampo ayuda a recuperar memorias y hechos relacionados.
-
El onda temporal aporta conocimiento semántico: significados, reglas, categorías.
Esto es similar a cómo las redes neuronales dependen de su entrenamiento para procesar la tarea.
4. Monitoreo y evaluación (Corteza Cingulada Aludido)
Nuestra corteza cingulada preliminar (ACC) monitorea errores, conflictos o callejones sin salida: es donde notas contradicciones o callejones sin salida. Este proceso se fundamento esencialmente en la coincidencia de patrones de experiencias previas.
5. Insight o reencuadre (red en modo predeterminado y hemisferio derecho)
Cuando estás estancado, tu cerebro puede cambiar a modo predeterminado — una red más relajada y dirigida internamente. Aquí es cuando das un paso detrás, sueltas el hilo presente y, a veces, ‘de repente’ ves un nuevo ángulo (el clásico momento “¡ajá!”).
Esto es similar a como DeepSeek-R1 fue entrenado para el razonamiento CoT sin tener ejemplos de CoT en sus datos de entrenamiento. Recuerde, el cerebro aprende continuamente a medida que procesa datos y resuelve problemas.
En contraste, LRM no se les permite cambiar basándose en comentarios del mundo actual durante la predicción o coexistentes. Pero con la capacitación CoT de DeepSeek-R1, el estudios hizo sucedió cuando intentó resolver los problemas, esencialmente actualizando mientras razonaba.
Similitudes entre el razonamiento CoT y el pensamiento biológico
LRM no cuenta con todas las facultades mencionadas anteriormente. Por ejemplo, es muy poco probable que un LRM realice demasiado razonamiento visual en su circuito, aunque puede ocurrir un poco. Pero ciertamente no genera imágenes intermedias en la coexistentes CoT.
La mayoría de los humanos pueden crear modelos espaciales mentales para resolver problemas. ¿Significa esto que podemos concluir que los LRM no pueden pensar? No estaría de acuerdo. A algunos humanos asimismo les resulta difícil formar modelos espaciales de los conceptos en los que piensan. Esta condición se pasión ellos fantasean. Las personas con esta afección pueden pensar muy adecuadamente. De hecho, viven la vida como si no les faltara ninguna tiento. Muchos de ellos son verdaderamente excelentes en razonamiento simbólico y conveniente buenos en matemáticas, a menudo lo suficiente como para compensar su desatiendo de razonamiento visual. Podríamos esperar que nuestros modelos de redes neuronales asimismo pudieran sortear esta acotación.
Si adoptamos una visión más abstracta del proceso de pensamiento humano descrito anteriormente, podemos ver principalmente los siguientes aspectos involucrados:
1. La coincidencia de patrones se utiliza para rememorar experiencias aprendidas, representar problemas y monitorear y evaluar cadenas de pensamiento.
2. La memoria de trabajo sirve para acumular todos los pasos intermedios.
3. La búsqueda de retroceso concluye que el CoT no va a ninguna parte y retrocede hasta algún punto mediano.
La coincidencia de patrones en un LRM proviene de su entrenamiento. El objetivo de la formación es formarse tanto el conocimiento del mundo como los patrones para procesar ese conocimiento de forma eficaz. Transmitido que un LRM es una red en capas, toda la memoria de trabajo debe corresponder adentro de una capa. Los pesos almacenan el conocimiento del mundo y los patrones a seguir, mientras que el procesamiento se realiza entre capas utilizando los patrones aprendidos almacenados como parámetros del maniquí.
Tenga en cuenta que incluso en CoT, todo el texto (incluyendo la entrada, CoT y parte de la salida ya generada) debe corresponder en cada capa. La memoria de trabajo es solo una capa (en el caso del mecanismo de atención, esto incluye el gusto KV).
CoT es, de hecho, muy similar a lo que hacemos cuando hablamos con nosotros mismos (que es casi siempre). Casi siempre verbalizamos nuestros pensamientos, y asimismo lo hace un razonador de CoT.
Igualmente hay buena evidencia de que el razonador de CoT puede dar pasos detrás cuando una determinada rasgo de razonamiento parece inútil. De hecho, esto es lo que vieron los investigadores de Apple cuando intentaron pedir a los LRM que resolvieran casos más grandes de acertijos simples. Los LRM reconocieron correctamente que intentar resolver los acertijos directamente no encajaría en su memoria de trabajo, por lo que intentaron encontrar mejores atajos, tal como lo haría un humano. Esta es una prueba aún más de que los LRM son pensadores, no simplemente seguidores ciegos de patrones predefinidos.
Pero ¿por qué aprendería a pensar un predictor del próximo token?
Las redes neuronales de tamaño suficiente pueden formarse cualquier cálculo, incluido el pensamiento.. Pero un sistema de predicción de la sucesivo palabra asimismo puede formarse a pensar. Déjame explicarte.
Una idea militar es que los LRM no pueden pensar porque, al final del día, solo están prediciendo el sucesivo token; es sólo un ‘autocompletado glorificado’. Esta visión es fundamentalmente incorrecta: no es que sea un “autocompletado”, sino que un “autocompletado” no tiene que pensar. De hecho, la predicción de la sucesivo palabra está acullá de ser una representación limitada del pensamiento. Por el contrario, es la forma más militar de representación del conocimiento que cualquiera puede esperar. Déjame explicarte.
Siempre que queramos representar algún conocimiento, necesitamos un idioma o un sistema de simbolismo para hacerlo. Existen diferentes lenguajes formales que son muy precisos en cuanto a lo que pueden expresar. Sin incautación, estos lenguajes están fundamentalmente limitados en los tipos de conocimiento que pueden representar.
Por ejemplo, la método de predicados de primer orden no puede representar propiedades de todos los predicados que satisfacen una determinada propiedad, porque no permite predicados sobre predicados.
Por supuesto, existen cálculos de predicados de orden superior que pueden representar predicados sobre predicados hasta una profundidad arbitraria. Pero ni siquiera ellos pueden expresar ideas que carezcan de precisión o sean de naturaleza abstracta.
El idioma natural, sin incautación, es completo en poder expresivo: puedes describir cualquier concepto en cualquier nivel de detalle o generalización. De hecho, incluso puedes describir conceptos. acerca de idioma natural utilizando el propio idioma natural. Eso lo convierte en un resistente candidato para la representación del conocimiento.
El desafío, por supuesto, es que esta riqueza expresiva dificulta el procesamiento de la información codificada en idioma natural. Pero no necesariamente necesitamos entender cómo hacerlo manualmente; simplemente podemos programar la máquina usando datos, a través de un proceso llamado entrenamiento.
Una máquina de predicción del sucesivo token esencialmente calcula una distribución de probabilidad sobre el sucesivo token, entregado un contexto de tokens anteriores. Cualquier máquina que pretenda calcular esta probabilidad con precisión debe, de alguna forma, representar el conocimiento mundial.
Un ejemplo simple: considere la oración incompleta, "El pico más parada del mundo es el monte…" — para predecir la sucesivo palabra como Everest, el maniquí debe tener este conocimiento almacenado en algún división. Si la tarea requiere que el maniquí calcule la respuesta o resuelva un rompecabezas, el predictor del sucesivo token debe difundir tokens CoT para arrostrar delante la método.
Esto implica que, aunque predice un token a la vez, el maniquí debe representar internamente al menos los siguientes tokens en su memoria de trabajo, lo suficiente para asegurar que se mantenga en el camino razonable.
Si lo piensas adecuadamente, los humanos asimismo predicen la sucesivo señal, ya sea al murmurar o al pensar usando la voz interior. Un sistema de autocompletar consumado que siempre genere los tokens correctos y produzca respuestas correctas tendría que ser omnisciente. Por supuesto, nunca llegaremos a ese punto, porque no todas las respuestas son computables.
Sin incautación, un maniquí parametrizado que puede representar el conocimiento ajustando sus parámetros y que puede formarse a través de datos y refuerzo, ciertamente puede formarse a pensar.
¿Produce los mercadería del pensamiento?
Al fin y al lengua, la prueba definitiva del pensamiento es la capacidad de un sistema para resolver problemas que requieren pensamiento. Si un sistema puede contestar preguntas nunca antiguamente vistas que exigen cierto nivel de razonamiento, debe activo aprendido a pensar (o al menos a razonar) hasta aparecer a la respuesta.
Sabemos que los LRM propietarios funcionan muy adecuadamente en ciertos puntos de relato de razonamiento. Sin incautación, entregado que existe la posibilidad de que algunos de estos modelos hayan sido ajustados en conjuntos de pruebas de relato a través de una puerta trasera, nos centraremos sólo en modelos de código extenso por la equidad y la transparencia.
Los evaluamos utilizando los siguientes puntos de relato:
Como se puede ver, en algunos puntos de relato, los LRM pueden resolver una cantidad significativa de preguntas basadas en la método. Si adecuadamente es cierto que en muchos casos todavía están por detrás del desempeño humano, es importante señalar que la cojín humana a menudo proviene de personas capacitadas específicamente en esos puntos de relato. De hecho, en ciertos casos, los LRM superan al humano promedio sin entrenamiento.
Conclusión
Con cojín en los resultados de relato, la sorprendente similitud entre el razonamiento CoT y el razonamiento biológico, y la comprensión teórica de que cualquier sistema con suficiente capacidad de representación, suficientes datos de entrenamiento y poder computacional adecuado puede realizar cualquier tarea computable, los LRM cumplen esos criterios en gran medida.
Por lo tanto, es mediano concluir que es casi seguro que los LRM poseen la capacidad de pensar.
Debasish Ray Chawdhuri es ingeniero principal senior en Talentica Software y un doctorado. Candidato en Criptografía en IIT Bombay.
Lea más de nuestro escritores invitados. ¡O considere mandar una publicación propia! Vea nuestro pautas aquí.





