Anthrope dice que algunos modelos de Claude ahora pueden terminar conversaciones ‘dañinas o abusivas’

Antrópico tiene Nuevas capacidades anunciadas Eso permitirá que algunos de sus modelos más nuevos y más grandes terminen las conversaciones en lo que la compañía describe como “casos raros y extremos de interacciones de heredero persistentemente dañinas o abusivas”. Sorprendentemente, Anthrope dice que está haciendo esto para no proteger al heredero humano, sino al maniquí de IA en sí.

Para ser claros, la compañía no afirma que sus modelos Claude AI son sensibles o pueden estar perjudicados por sus conversaciones con los usuarios. En sus propias palabras, Anthrope sigue siendo “muy incierto sobre el estado honrado potencial de Claude y otros LLM, ahora o en el futuro”.

Sin bloqueo, su anuncio apunta a un software flamante creado para estudiar lo que claridad “bienestar maniquí” y dice que Anthrope es esencialmente adoptando un enfoque puntual en el caso, “trabajando para identificar e implementar intervenciones de bajo costo para mitigar los riesgos para modelar el bienestar, en caso de que tal bienestar sea posible”.

Este zaguero cambio se limita actualmente a Claude Opus 4 y 4.1. Y nuevamente, solo se supone que sucederá en “casos de borde extremo”, como “las solicitudes de los usuarios de contenido sexual que involucran a menores e intentos de solicitar información que permita la violencia o actos de terror a gran escalera”.

Si adecuadamente ese tipo de solicitudes podrían crear problemas legales o publicitarios para el mismo Antrópico (testimonio de informes recientes sobre cómo ChatGPT puede potencialmente acrecentar o contribuir a la deliring de sus usuarios), la compañía dice que en las pruebas previas a la implementación, Claude Opus 4 mostró una “válido preferencia” que asegura a estas solicitudes y un “patrón de angustia manifiesto” cuando lo hizo.

En cuanto a estas nuevas capacidades de finalización de la conversación, la compañía dice: “En todos los casos, Claude solo es usar su capacidad de finalización de conversación como zaguero arbitrio cuando múltiples intentos de redirección han fallado y la esperanza de una interacción productiva se ha fatigado, o cuando un heredero le pide explícitamente a Claude que termine un chat”.

Anthrope igualmente dice que Claude ha sido “dirigido a no usar esta capacidad en los casos en que los usuarios podrían tener un peligro inminente de dañarse a sí mismos o a otros”.

Evento de TechCrunch

San Francisco
|
27-29 de octubre de 2025

Cuando Claude termina una conversación, Anthrope dice que los usuarios aún podrán iniciar nuevas conversaciones de la misma cuenta y crear nuevas ramas de la conversación problemática editando sus respuestas.

“Estamos tratando esta característica como un indagación continuo y continuaremos refinando nuestro enfoque”, dice la compañía.