La última característica de Anthrope para dos de sus modelos Claude AI podría ser el aparición del fin de la comunidad de AI Jailbreaking. La compañía anunció en un Informar en su sitio web Que los modelos Claude Opus 4 y 4.1 ahora tienen el poder de terminar una conversación con los usuarios. Según Anthrope, esta característica solo se utilizará en “casos raros y extremos de interacciones de beneficiario persistentemente dañinas o abusivas”.
Para aclarar, Anthrope dijo que esos dos modelos de Claude podrían salir de conversaciones dañinas, como “las solicitudes de los usuarios de contenido sexual que involucran a menores e intentos de solicitar información que permita una violencia o actos de terror a gran escalera”. Con Claude Opus 4 y 4.1, estos modelos solo terminarán una conversación “como final solicitud cuando múltiples intentos de redirección han fallado y la esperanza de una interacción productiva se ha sofocado”, según Anthrope. Sin requisa, Anthrope afirma que la mayoría de los usuarios no experimentarán a Claude cortando una conversación, incluso cuando se acento de temas mucho controvertidos, ya que esta característica se reservará para “casos de borde extremo”.
El ejemplo de Anthrope de Claude finalizando una conversación
(Antrópico)
En los escenarios en los que Claude termina un chat, los usuarios ya no pueden expedir ningún mensaje nuevo en esa conversación, pero pueden comenzar uno nuevo de inmediato. Anthrope agregó que si se termina una conversación, no afectará a otros chats y los usuarios incluso pueden regresar y editar o retornar a intentar los mensajes anteriores para dirigirse con destino a una ruta de conversación diferente.
Para antrópico, este movimiento es parte de su software de investigación que estudia la idea del bienestar de la IA. Si admisiblemente la idea de antropomorfizar modelos de IA sigue siendo un debate continuo, la compañía dijo que la capacidad de salir de una “interacción potencialmente angustiosa” era una forma de bajo costo para mandar los riesgos para el bienestar de la IA. Anthrope todavía está experimentando con esta característica y alienta a sus usuarios a proporcionar comentarios cuando encuentran tal proscenio.





