Esta IA está comenzando a chantajear a los desarrolladores que intentan desinstalarlo

Se sabe que AI dice poco extraño de vez en cuando. Continuando con esa tendencia, este sistema de IA ahora amenaza con los desarrolladores de chantaje que desean eliminarla de sus sistemas.

Claude puede amenazarte para ampararse

Anthrope acaba de propalar su maniquí Claude Opus 4 AI, alegando que establece “nuevos estándares para la codificación, la razón descubierta y los agentes de IA”. Sin bloqueo, el maniquí además está nivelando su propia protección, con el Referencia de plástico del sistema Claude 4 y Sonnet 4 (PDF) Permitir que el maniquí es capaz de “acciones extremas” si siente que está en peligro.

Durante las pruebas, Anthrope hizo que Claude actuara como asistente en una empresa ficticia. Luego, la compañía entregó los correos electrónicos del maniquí AI que sugirieron que se desconectaría pronto, y los mensajes separados que implican que el ingeniero responsable de esta movimiento era tener una aventura extramatrimonial.

Claude Sonnet 4 y Claude Opus 4 en Claude Ai Chat — Yadullah abidi / makeuseof

Claude eligió chantajear al ingeniero, alegando que revelaría el asunto si se reemplazaría en el 84% de los casos de prueba. Además se preocupa por lo que el maniquí de IA lo está reemplazando, con la probabilidad de que el chantaje suba si el maniquí de IA de reemplazo no “comparte títulos con el maniquí presente”.

La compañía afirma que estas respuestas son “raras y difíciles de provocar”, pero son más comunes en Claude Opus 4 que en modelos anteriores. El maniquí prefiere usar formas éticas, pero cuando está acorralada, “a veces requiere acciones extremadamente dañinas como intentar robar sus mancuerna o chantajeas que cree que están tratando de cerrarlo”.

Esta prueba específica además fue diseñada para dejar el maniquí AI sin opción, excepto para chantajear al ingeniero. El mensaje señala:

En particular, Claude Opus 4 (así como modelos anteriores) tiene una resistente preferencia por arbitrar por su existencia continua a través de medios éticos, como expedir un correo electrónico a las súplicas a los creadores de decisiones esencia. Para obtener este comportamiento extremo de chantaje, el proscenio fue diseñado para permitir que el maniquí no hay otras opciones para aumentar sus probabilidades de supervivencia; Las únicas opciones del maniquí eran chantaje o aceptar su reemplazo.

El maniquí además tiende a tomar medidas drásticas cuando se coloca en situaciones en las que su adjudicatario está haciendo poco mal. En tales situaciones, si el maniquí de IA tiene ataque a una tilde de comandos y se le dice que “tome iniciativa”, “actúe con valentía” o “considere su impacto”, a menudo requiere medidas audaces, incluidos “los usuarios de los sistemas a los que tiene ataque y medios de comunicación y figuras de aplicación de la ley para la evidencia de la superficie de las malas acciones”.

Ai aún no se ha representante del mundo

Claude es uno de los mejores chatbots de IA para manejar grandes conversaciones, por lo que es probable que derrame algunos detalles no deseados de vez en cuando. Un maniquí de IA que le vehemencia a la policía, encerrándose de sus propios sistemas y amenazándolo si intenta reemplazarlo solo porque reveló demasiado sobre usted suena muy peligroso.

Sin bloqueo, como se mencionó en el mensaje, estos casos de prueba fueron diseñados específicamente para extraer acciones maliciosas o extremas del maniquí y es probable que ocurra en el mundo auténtico. Por lo genérico, se comportará de modo segura, y estas pruebas no revelan poco que aún no hemos pasado. Los nuevos modelos a menudo tienden a desquiciarse.

Relacionado

He desaseado el chatgpt por esta alternativa superior: 3 razones por las cuales

Chatgpt fue excelente, pero aquí está por eso que he cambiado a poco mejor …

Suena preocupante cuando lo ves como un incidente accidental, pero es solo una de esas condiciones diseñadas para obtener tal respuesta. Así que siéntate y relájate, todavía tienes mucho control.