AI no está ‘razonando’ en rotundo: cómo este equipo desacreditó la exageración de la industria

1acolors-Gettetyimages-1490504801

Pulse/Corbis a través de Getty Images

Sigue a ZDNET: Agréganos como fuente preferida en Google.


Takeaways de válvula de ZDNET

  • No sabemos por completo cómo funciona la IA, por lo que le atribuimos poderes mágicos.
  • Las afirmaciones de que Gen Ai puede razonar es un “espejismo débil”.
  • Siempre debemos ser específicos sobre lo que está haciendo la IA y evitar la hipérbole.

Desde que los programas de inteligencia químico comenzaron a impresionar al conocido en universal, los académicos de IA han estado haciendo reclamos por el significado más profundo de la tecnología, incluso afirmando la posibilidad de una comprensión humana.

Los académicos se convierten en filosóficos porque incluso los científicos que crearon modelos de IA como el GPT-5 de OpenAI no entienden verdaderamente cómo funcionan los programas, no del todo.

Todavía: Altman de OpenAi ve ‘Superinteligencia’ a la envés de la arista, pero le desatiendo detalles

La ‘caja negra’ de AI y la máquina explosivo

Los programas de IA como LLM son infamemente “cajas negras”. Logran mucho que es impresionante, pero en su viejo parte, no podemos observar todo lo que están haciendo cuando toman una entrada, como un mensaje de su tipo, y producen una salida, como el documento de Término de la Universidad que solicitó o la sugerencia para su nueva novelística.

En la violación, los científicos han chapón términos coloquiales como el “razonamiento” para describir la forma en que funcionan los programas. En el proceso, han implicado o directamente afirmado que los programas pueden “pensar”, “razón” y “conocer” de la guisa que los humanos.

En los últimos dos primaveras, la retórica ha superado a la ciencia, ya que los ejecutivos de IA han usado hipérbole para torcer lo que fueron simples logros de ingeniería.

Todavía: ¿Qué es el GPT-5 de OpenAI? Aquí está todo lo que necesita asimilar sobre el postrero maniquí de la compañía.

Operai’s Comunicado de prensa en septiembre pasado Al anunciar su maniquí de razonamiento O1 declaró que “similar a cómo un humano puede pensar durante mucho tiempo ayer de objetar a una pregunta difícil, O1 usa una cautiverio de pensamiento al intentar resolver un problema” para que “O1 aprenda a perfeccionar su cautiverio de pensamiento y refinar las estrategias que usa”.

Fue un paso corto de esas afirmaciones antropomorfizantes a todo tipo de afirmaciones salvajes, como el CEO de Operai, Sam Altman, comentarioen junio, que “pasamos el horizonte del evento; el despegue ha comenzado. La humanidad está cerca de construir una superinteligencia digital”.

(Divulgación: Ziff Davis, la empresa matriz de Zdnet, presentó una demanda de abril de 2025 contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA).

La reacción violenta de la investigación de IA

Sin incautación, hay un edificio de reacción de los científicos de IA que desacreditan los supuestos de la inteligencia humana a través del riguroso investigación técnico.

En un papel Publicado el mes pasado en el servidor ARXIV preimpresión Y aún no revisados ​​por sus compañeros, los autores, Chengshuai Zhao y sus colegas de la Universidad Estatal de Arizona, desarmaron las afirmaciones de razonamiento a través de un simple test. Lo que concluyeron es que “el razonamiento de la cautiverio de pensamiento es un espejismo frágil”, y “no es un mecanismo para la inferencia deducción genuina, sino una forma sofisticada de coincidencia de patrones estructurados”.

Todavía: Sam Altman dice que la singularidad es inminente, aquí está por qué

El término “cautiverio de pensamiento” (cot) se usa comúnmente para describir el flujo de salida detallado que ve cuando un maniquí de razonamiento espacioso, como GPT-O1 o Deepseek V1, le muestra cómo funciona a través de un problema ayer de dar la respuesta final.

Esa corriente de declaraciones no es tan profunda o significativa como parece, escriba Zhao y equipo. “Los éxitos empíricos del razonamiento de COT conducen a la percepción de que los modelos de idiomas grandes (LLM) participan en procesos inferenciales deliberados”, escriben.

Pero, “un cuerpo en expansión de exploración revela que los LLM tienden a reconocer de la semántica y pistas a nivel de superficie en lado de procedimientos lógicos”, explican. “LLMS construye cadenas superficiales de deducción basadas en asociaciones de token aprendidas, a menudo fallando en las tareas que se desvían de la heurística de sentido popular o plantillas familiares”.

El término “cadenas de tokens” es una forma popular de referirse a una serie de instrumentos de entrada a un LLM, como palabras o caracteres.

Probar lo que verdaderamente hacen

Para probar la hipótesis de que los LLM son simplemente una coincidencia de patrones, no verdaderamente razonando, entrenaron a la LLM de código franco de OpenAi, GPT-2, desde 2019, comenzando desde cero, un enfoque que llaman “alquimia de datos”.

Arizona-State-2025-Data-Alchemy

Universidad Estatal de Arizona

El maniquí fue entrenado desde el principio para manipular las 26 humanidades del alfabeto inglés, “A, B, C, … etc.”. Ese corpus simplificado permite que Zhao y el equipo prueben el LLM con un conjunto de tareas muy simples. Todas las tareas implican manipular secuencias de las humanidades, como, por ejemplo, cambiar cada pago un cierto número de lugares, de modo que “Apple” se convierte en “EAPPL”.

Todavía: El CEO de Operai ve una lucha cuesta en lo alto para GPT-5, potencial para un nuevo tipo de hardware de consumo

Utilizando el número acotado de tokens y tareas limitadas, Zhao y Team varían las tareas a las que el maniquí de idioma está expuesto en sus datos de capacitación frente a qué tareas solo se ven cuando se prueba el maniquí terminado, como “cambiar cada dato por 13 lugares”. Es una prueba de si el maniquí de idioma puede razonar una forma de funcionar incluso cuando se enfrenta a nuevas tareas nunca ayer vistas.

Descubrieron que cuando las tareas no estaban en los datos de capacitación, el maniquí de jerigonza no logró conquistar esas tareas correctamente utilizando una cautiverio de pensamiento. El maniquí AI intentó usar tareas que estaban en sus datos de entrenamiento y su “razonamiento” sonidos Proporcionadamente, pero la respuesta que generó fue incorrecta.

Como lo expresaron Zhao y el equipo, “LLMS intentan difundir las rutas de razonamiento basadas en las más similares (…) vistas durante el entrenamiento, lo que lleva a las rutas de razonamiento correctas, pero respuestas incorrectas”.

Especificidad para contrarrestar el caja

Los autores dibujan algunas lecciones.

Primero: “Proteja contra la excesiva dependencia y la falsa confianza”, aconsejan, porque “la capacidad de los LLM para producir ‘tonterías fluidas’, plausibles pero lógicamente defectuosas cadenas de razonamiento, puede ser más engañosa y dañina que una respuesta incorrecta, ya que proyecta una aura de confiabilidad falsa”.

Adicionalmente, pruebe las tareas que no sean explícitamente que no sean contenidas en los datos de capacitación para que el maniquí de IA se probe con el estrés.

Todavía: Por qué el Rocky Rollout de GPT-5 es la comprobación de la verdad que necesitamos en la exageración de superinteligencia

Lo importante del enfoque de Zhao y el equipo es que atraviesa la hipérbole y nos lleva de envés a los conceptos básicos de comprender qué está haciendo exactamente la IA.

Cuando la investigación flamante sobre la cautiverio de pensamiento “,La provisión de la cautiverio de pensamiento provoca el razonamiento en modelos de idiomas grandes“, fue realizado por Jason Wei y sus colegas en el equipo de Google Brain de Google en 2022, investigación que desde entonces se ha citado más de 10,000 veces, los autores no hicieron afirmaciones sobre el razonamiento actual.

Wei y el equipo notaron que pidieron a un LLM que enumere los pasos en un problema, como un problema de palabra aritmética (“Si hay 10 cookies en el frasco, y Sally talego uno, ¿cuántos quedan en el frasco?”) Tendió a conducir a soluciones más correctas, en promedio.

Google-2022-Cadena de prueba de pensamiento

Google Brain

Tuvieron cuidado de no afirmar las habilidades humanas. “Aunque la cautiverio de pensamiento emula los procesos de pensamiento de los razonadores humanos, esto no replica si la red neuronal es verdaderamente el” razonamiento “, que dejamos como una pregunta abierta”, escribieron en ese momento.

Adicionalmente: ¿Pensará la IA como los humanos? Ni siquiera estamos cerca, y estamos haciendo la pregunta equivocada

Desde entonces, las afirmaciones de Altman y varios comunicados de prensa de los promotores de IA han enfatizado cada vez más la naturaleza humana del razonamiento utilizando una retórica informal y descuidada que no respeta la descripción puramente técnica de Wei y del equipo.

El trabajo de Zhao y el equipo es un recordatorio de que debemos ser específicos, no supersticiosos, sobre lo que la máquina verdaderamente está haciendo y evitar afirmaciones hiperbólicas.


Related Posts

El navegador AI Comet de Perplexity se bichero en iPhone con asistente incorporado

La perplejidad se ha extendido Cometasu nuevo navegador impulsado por IA, en la App Store para usuarios de iPhone. La aplicación, cuyo propagación diferente estaba previsto para el 11 de…

Deje de culpar a su distribución de Linux por problemas que en efectividad no son problemas de distribución

Así como hay muchos usuarios a los que les gusta promocionar Linux como la opción a todos los problemas de Windows 11, hay muchos otros que se sienten atraídos por…

You Missed

mantienen meta de osadía a mayores de 65 abriles

mantienen meta de osadía a mayores de 65 abriles

Desmantelan red de 373.000 webs de tropelía pueril en impresionante operación internacional

Desmantelan red de 373.000 webs de tropelía pueril en impresionante operación internacional

Irán confirma asesinato portavoz de la Control Revolucionaria | AlMomento.net

Irán confirma asesinato portavoz de la Control Revolucionaria | AlMomento.net

El navegador AI Comet de Perplexity se bichero en iPhone con asistente incorporado

El navegador AI Comet de Perplexity se bichero en iPhone con asistente incorporado

Profamilia advierte persistencia de mitos sobre sexualidad al celebrar 60 primaveras de servicio en República Dominicana

Profamilia advierte persistencia de mitos sobre sexualidad al celebrar 60 primaveras de servicio en República Dominicana

“Entretenimiento de Hombre” postura a LAMUVIRD+ para su estreno mundial

“Entretenimiento de Hombre” postura a LAMUVIRD+ para su estreno mundial