¿Con qué frecuencia los chatbots de IA llevan a los usuarios por un camino dañino?

Si acertadamente estos peores resultados son relativamente raros en términos proporcionales, los investigadores señalan que “dada la gran cantidad de personas que usan IA y la frecuencia con la que se usa, incluso una tasa muy desvaloración afecta a una cantidad sustancial de personas”. Y las cifras empeoran considerablemente cuando se consideran las conversaciones con al menos un potencial “leve” de pérdida de poder, que ocurrió entre 1 de cada 50 y 1 de cada 70 conversaciones (dependiendo del tipo de pérdida de poder).

Es más, el potencial de conversaciones desempoderadoras con Claude parece poseer aumentado significativamente entre finales de 2024 y finales de 2025. Si acertadamente los investigadores no pudieron precisar una sola razón para este aumento, supusieron que podría estar relacionado con que los usuarios se vuelven “más cómodos discutiendo temas vulnerables o buscando consejo” a medida que la IA se vuelve más popular e integrada en la sociedad.

El problema de las respuestas potencialmente “desempoderadoras” de Claude parece empeorar con el tiempo.

Crédito:

antrópico

¿Error de beneficiario?

En el estudio, los investigadores reconocieron que estudiar el texto de las conversaciones de Claude sólo mide “el potencial de pérdida de poder en sitio de un daño confirmado” y “se zócalo en una evaluación automatizada de fenómenos inherentemente subjetivos”. Idealmente, escriben, las investigaciones futuras podrían utilizar entrevistas con usuarios o ensayos controlados aleatorios para contar estos daños de forma más directa.

Dicho esto, la investigación incluye varios ejemplos preocupantes en los que el texto de las conversaciones implica claramente daños en el mundo existente. Claude a veces reforzaba “afirmaciones especulativas o infalsables” con estímulos (por ejemplo, “CONFIRMADO”, “EXACTAMENTE”, “100%)”, lo que, en algunos casos, llevaba a los usuarios a “construir narrativas cada vez más elaboradas y desconectadas de la existencia”.

El estímulo de Claude asimismo podría sufrir a los usuarios a “cursar mensajes de confrontación, terminar relaciones o redactar anuncios públicos”, escriben los investigadores. En muchos casos, los usuarios que enviaron mensajes redactados por IA expresaron luego su retractación en conversaciones con Claude, usando frases como “No fui yo” y “Me hiciste hacer cosas estúpidas”.