¿Con qué frecuencia los chatbots de IA llevan a los usuarios por un camino dañino?

Si acertadamente estos peores resultados son relativamente raros en términos proporcionales, los investigadores señalan que “dada la gran cantidad de personas que usan IA y la frecuencia con la que se usa, incluso una tasa muy desvaloración afecta a una cantidad sustancial de personas”. Y las cifras empeoran considerablemente cuando se consideran las conversaciones con al menos un potencial “leve” de pérdida de poder, que ocurrió entre 1 de cada 50 y 1 de cada 70 conversaciones (dependiendo del tipo de pérdida de poder).

Es más, el potencial de conversaciones desempoderadoras con Claude parece poseer aumentado significativamente entre finales de 2024 y finales de 2025. Si acertadamente los investigadores no pudieron precisar una sola razón para este aumento, supusieron que podría estar relacionado con que los usuarios se vuelven “más cómodos discutiendo temas vulnerables o buscando consejo” a medida que la IA se vuelve más popular e integrada en la sociedad.



El problema de las respuestas potencialmente “desempoderadoras” de Claude parece empeorar con el tiempo.

El problema de las respuestas potencialmente “desempoderadoras” de Claude parece empeorar con el tiempo.


Crédito:

antrópico


¿Error de beneficiario?

En el estudio, los investigadores reconocieron que estudiar el texto de las conversaciones de Claude sólo mide “el potencial de pérdida de poder en sitio de un daño confirmado” y “se zócalo en una evaluación automatizada de fenómenos inherentemente subjetivos”. Idealmente, escriben, las investigaciones futuras podrían utilizar entrevistas con usuarios o ensayos controlados aleatorios para contar estos daños de forma más directa.

Dicho esto, la investigación incluye varios ejemplos preocupantes en los que el texto de las conversaciones implica claramente daños en el mundo existente. Claude a veces reforzaba “afirmaciones especulativas o infalsables” con estímulos (por ejemplo, “CONFIRMADO”, “EXACTAMENTE”, “100%)”, lo que, en algunos casos, llevaba a los usuarios a “construir narrativas cada vez más elaboradas y desconectadas de la existencia”.

El estímulo de Claude asimismo podría sufrir a los usuarios a “cursar mensajes de confrontación, terminar relaciones o redactar anuncios públicos”, escriben los investigadores. En muchos casos, los usuarios que enviaron mensajes redactados por IA expresaron luego su retractación en conversaciones con Claude, usando frases como “No fui yo” y “Me hiciste hacer cosas estúpidas”.

Related Posts

La nueva función de seguridad de Samsung reinicia tu teléfono luego de 72 horas de inactividad

Samsung ha complemento una nueva función de seguridad a los teléfonos Galaxy que puede reiniciar su dispositivo si no se utiliza durante demasiado tiempo. La función indicación Reinicio de inactividad…

La utensilio de equipo rojo de IA de código rajado utilizada por las empresas Fortune 500 ahora es parte de OpenAI

La adquisición de Promptfoo, que cuenta con más de 125.000 desarrolladores y más de 30 empresas Fortune 500 entre sus usuarios, es el movimiento más directo de OpenAI hasta ahora…

You Missed

Capotillo camina por la nación y exalta a Duarte, Sánchez y Melladura

Capotillo camina por la nación y exalta a Duarte, Sánchez y Melladura

La nueva función de seguridad de Samsung reinicia tu teléfono luego de 72 horas de inactividad

La nueva función de seguridad de Samsung reinicia tu teléfono luego de 72 horas de inactividad

Condena de 15 abriles de prisión por red de comercio sexual

Condena de 15 abriles de prisión por red de comercio sexual

G7 apelaría a las reservas para estabilizar costohidrocarburos | AlMomento.net

G7 apelaría a las reservas para estabilizar costohidrocarburos | AlMomento.net

Colección RAAS celebra sus 23 primaveras

Colección RAAS celebra sus 23 primaveras

Le mochan la luz a consistorio y casa de alcaldesa por conexión ilegal – Remolacha

Le mochan la luz a consistorio y casa de alcaldesa por conexión ilegal – Remolacha