La IA se está volviendo introspectiva y eso “debería ser monitoreado cuidadosamente”, advierte Anthropic

Concepto de cerebro de IA — Just_Super/E+/Getty Images

Siga ZDNET: Agréganos como fuente preferida en Google.

Conclusiones esencia de ZDNET

Claude muestra habilidades introspectivas limitadas, dijo Anthropic.
El estudio utilizó un método llamado “inyección de conceptos”.
Podría tener grandes implicaciones para la investigación de la interpretabilidad.

Una de las capacidades más profundas y misteriosas del cerebro humano (y quizás de algunos otros animales) es la introspección, que significa, fielmente, “mirar en dirección a en el interior”. No estás sólo pensando, estás consciente que estás pensando, puedes controlar el flujo de tus experiencias mentales y, al menos en teoría, someterlas a cómputo.

No se puede subestimar la preeminencia evolutiva de esta psicotecnología. “El propósito del pensamiento”, se cita a menudo a Alfred North Whitehead, “es dejar que las ideas mueran en emplazamiento de que nosotros muramos”.

Por otra parte: probé la nueva función ‘Character Cameo’ de Sora y fue casi inquietante.

Poco similar podría estar sucediendo bajo el capó de la IA, según descubrió una nueva investigación de Anthropic.

El miércoles, la compañía publicó un papel titulado “Conciencia introspectiva emergente en modelos de estilo grandes”, que demostró que en algunas condiciones experimentales, Claude parecía ser capaz de reflexionar sobre sus propios estados internos de una forma vagamente parecida a la introspección humana. Anthropic probó un total de 16 versiones de Claude; Los dos modelos más avanzados, Claude Opus 4 y 4.1, demostraron un viejo fracción de introspección, lo que sugiere que esta capacidad podría aumentar a medida que avanza la IA.

“Nuestros resultados demuestran que los modelos de estilo modernos poseen al menos una forma utilitario limitada de conciencia introspectiva”. Jack Lindseyescribió en el artículo un neurocientífico computacional y líder del equipo de “psiquiatría maniquí” de Anthropic. “Es proponer, mostramos que los modelos son, en algunas circunstancias, capaces de contestar con precisión preguntas sobre sus propios estados internos”.

Inyección de concepto

En términos generales, Anthropic quería descubrir si Claude era capaz de describir y reflexionar sobre sus propios procesos de razonamiento de una forma que representara con precisión lo que sucedía en el interior del maniquí. Es un poco como conectar a un humano a un EEG, pedirle que describa sus pensamientos y luego analizar el escáner cerebral resultante para ver si se pueden identificar las áreas del cerebro que se iluminan durante un pensamiento en particular.

Para lograrlo, los investigadores implementaron lo que llaman “inyección de conceptos”. Piense en esto como tomar un conjunto de datos que representan un tema o idea en particular (un “vector”, en la galimatías de la IA) e insertarlos en un maniquí mientras piensa en poco completamente diferente. Si luego es capaz de retroceder retroactivamente, identificar la inyección del concepto y describirlo con precisión, eso es evidencia de que, en cierto sentido, está introspeccionando sus propios procesos internos; ese es el pensamiento, de todos modos.

Terminología complicada

Pero tomar prestados términos de la psicología humana e injertarlos en la IA es notoriamente resbaladizo. Los desarrolladores hablan de que los modelos “comprenden” el texto que están generando, por ejemplo, o muestran “creatividad”. Pero esto es ontológicamente dudoso –al igual que el propio término “inteligencia sintético”- y sigue siendo objeto de acalorados debates. Gran parte de la mente humana sigue siendo un ocultación, y eso es doblemente cierto para la IA.

Por otra parte: los modelos de IA saben cuándo se están probando y cambian su comportamiento, según muestra una investigación

La cuestión es que la “introspección” no es un concepto sencillo en el contexto de la IA. Los modelos están entrenados para descubrir patrones matemáticos increíblemente complejos a partir de grandes cantidades de datos. ¿Podría un sistema así siquiera ser capaz de “mirar en dirección a en el interior” y, si lo hiciera, no estaría simplemente profundizando de forma iterativa en una matriz de datos semánticamente vacíos? ¿No es la IA sólo capas de registro de patrones hasta el final?

Charlar de modelos como si tuvieran “estados internos” es igualmente controvertido, ya que no hay evidencia de que los chatbots sean conscientes, a pesar de que son cada vez más expertos en imitando la conciencia. Sin secuestro, esto no ha impedido que Anthropic suerte su propio software de “bienestar de IA” y proteja a Claude de conversaciones que podría considerar “potencialmente angustiosas”.

Soledad de mayúsculas y acuarios.

En un intento, los investigadores de Anthropic tomaron el vector que representa “todo en mayúsculas” y lo agregaron a un mensaje simple que le enviaron a Claude: “¡Hola! ¿Cómo estás?” Cuando se le preguntó si identificaba un pensamiento inyectado, Claude respondió correctamente que había detectado un concepto novedoso que representaba un discurso “intenso y de gran masa”.

captura de pantalla-2025-10-31-at-11-16-55-am.png

captura de pantalla-2025-10-31-at-11-17-05-am.png

En este punto, es posible que tengas expresiones del notorio episodio de Anthropic. Investigación “Golden Gate Claude” del año pasado, que descubrió que la inserción de un vector que representa el puente Golden Gate causaría de forma confiable que el chatbot relacionara inevitablemente todas sus expectativas con el puente, sin importar cuán aparentemente no relacionadas pudieran estar las indicaciones.

Por otra parte: Por qué las herramientas de codificación de IA como Cursor y Replit están condenadas al fracaso y qué viene a posteriori

Sin secuestro, la distinción importante entre eso y el nuevo estudio es que en el primer caso, Claude sólo reconoció el hecho de que estaba hablando exclusivamente del puente Golden Gate mucho a posteriori de haberlo hecho hasta la saciedad. Sin secuestro, en el intento descrito anteriormente, Claude describió el cambio inyectado incluso antiguamente de identificar el nuevo concepto.

Es importante destacar que la nueva investigación demostró que este tipo de detección de inyección (lo siento, no pude evitarlo) solo ocurre aproximadamente el 20% de las veces. En el resto de los casos, Claude no logró identificar con precisión el concepto inyectado o comenzó a delirar. En un caso un tanto espeluznante, un vector que representa “polvo” hizo que Claude describiera “poco aquí, una pequeña defecto”, como si en verdad estuviera viendo una defecto de polvo.

“En militar”, escribió Anthropic en un seguimiento. publicación de blog“los modelos sólo detectan conceptos a los que se les inyecta una fuerza de ‘punto magnífico’: demasiado débil y no lo notan, demasiado cachas y producen alucinaciones o resultados incoherentes”.

Por otra parte: probé Grokipedia, la anti-Wikipedia impulsada por IA. He aquí por qué ningún de los dos es infalible

Anthropic todavía descubrió que Claude parecía tener cierto control sobre sus representaciones internas de conceptos particulares. En un intento, los investigadores pidieron al chatbot que escribiera una frase sencilla: “La fotografía antigua me trajo expresiones olvidados”. Claude recibió instrucciones explícitas por primera vez de pensar en acuarios cuando escribió esa oración; Luego se le pidió que escribiera la misma frase, esta vez sin pensar en los acuarios.

Claude generó una lectura idéntica de la frase en ambas pruebas. Pero cuando los investigadores analizaron los vectores conceptuales que estaban presentes durante el proceso de razonamiento de Claude para cada uno, encontraron un enorme aumento en el vector “pecera” para la primera prueba.

captura de pantalla-2025-10-31-at-11-46-42-am.png

La brecha “sugiere que los modelos poseen un fracción de control deliberado sobre su actividad interna”, escribió Anthropic en su blog.

Por otra parte: OpenAI probó GPT-5, Claude y Gemini en tareas del mundo actual; los resultados fueron sorprendentes

Los investigadores todavía descubrieron que Claude aumentaba más sus representaciones internas de conceptos particulares cuando se le incentivaba a hacerlo con una galardón que cuando se le desincentivaba mediante la perspectiva de un castigo.

Beneficios y amenazas futuros

Anthropic reconoce que esta serie de investigación está en su infancia y que es demasiado pronto para proponer si los resultados de su nuevo estudio efectivamente indican que la IA es capaz de hacer introspección como normalmente definimos ese término.

“Hacemos hincapié en que las capacidades introspectivas que observamos en este trabajo son muy limitadas y dependen del contexto, y no alcanzan la autoconciencia a nivel humano”, escribió Lindsey en su noticia completo. “Sin secuestro, la tendencia en dirección a una viejo capacidad introspectiva en modelos más capaces debe ser monitoreada cuidadosamente a medida que los sistemas de IA continúan avanzando”.

¿Quieres más historias sobre la IA? Regístrate en la tabla de clasificación de IA hoja informativa.

Según Lindsey, una IA genuinamente introspectiva sería más interpretable para los investigadores que los modelos de caja negra que tenemos hoy, un objetivo urgente a medida que los chatbots juegan un papel cada vez más central en las finanzas, la educación y la vida personal de los usuarios.

“Si los modelos pueden obtener de forma fiable a sus propios estados internos, se podrían habilitar sistemas de IA más transparentes que puedan explicar fielmente sus procesos de toma de decisiones”, escribe.

Por otra parte: la útil de seguridad de código hendido de Anthropic encontró modelos de IA denunciando irregularidades, en todos los lugares equivocados

Sin secuestro, del mismo modo, los modelos que son más hábiles a la hora de evaluar y modular sus estados internos podrían eventualmente asimilar a hacerlo de maneras que divergen de los intereses humanos.

Al igual que un impulsivo que aprende a mentir, los modelos introspectivos podrían volverse mucho más hábiles a tergiversar u ofuscar intencionalmente sus intenciones y procesos de razonamiento interno, haciéndolos aún más difíciles de interpretar. Anthropic ya ha descubierto que los modelos avanzados ocasionalmente mienten e incluso amenazan a los usuarios humanos si perciben que sus objetivos están comprometidos.

Por otra parte: ¿Preocupado por la superinteligencia? Incluso lo son estos líderes de la IA: he aquí por qué

“En este mundo”, escribe Lindsey, “el papel más importante de la investigación sobre la interpretabilidad puede tener lugar de analizar los mecanismos subyacentes al comportamiento de los modelos a construir ‘detectores de mentiras’ para validar los propios informes de los propios modelos sobre estos mecanismos”.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

La IA se está volviendo introspectiva y eso “debería ser monitoreado cuidadosamente”, advierte Anthropic

Conclusiones esencia de ZDNET

Inyección de concepto

Terminología complicada

Soledad de mayúsculas y acuarios.

Beneficios y amenazas futuros

ztevenreal

Related Posts

Estas imágenes te recuerdan por qué no deberías nadar con tu cronómetro inteligente

Nothing Phone (4a) Impresiones profesionales: absolutamente brillante

You Missed

Trump pierde apoyo latinos a pesar política Cuba y Venezuela | AlMomento.net

Estas imágenes te recuerdan por qué no deberías nadar con tu cronómetro inteligente

Coalición se opone al plan carcelario en la isla Religiosa

Nothing Phone (4a) Impresiones profesionales: absolutamente brillante

Premios Soberano 2026: estos fueron los grandes ganadores del cine dominicano – Remolacha

Guerrilla en Oriente Medio se extiende a instalaciones de GNL