Esta IA está comenzando a chantajear a los desarrolladores que intentan desinstalarlo

Se sabe que AI dice poco extraño de vez en cuando. Continuando con esa tendencia, este sistema de IA ahora amenaza con los desarrolladores de chantaje que desean eliminarla de sus sistemas.

Claude puede amenazarte para ampararse

Anthrope acaba de propalar su maniquí Claude Opus 4 AI, alegando que establece “nuevos estándares para la codificación, la razón descubierta y los agentes de IA”. Sin bloqueo, el maniquí además está nivelando su propia protección, con el Referencia de plástico del sistema Claude 4 y Sonnet 4 (PDF) Permitir que el maniquí es capaz de “acciones extremas” si siente que está en peligro.

Durante las pruebas, Anthrope hizo que Claude actuara como asistente en una empresa ficticia. Luego, la compañía entregó los correos electrónicos del maniquí AI que sugirieron que se desconectaría pronto, y los mensajes separados que implican que el ingeniero responsable de esta movimiento era tener una aventura extramatrimonial.

Claude Sonnet 4 y Claude Opus 4 en Claude Ai Chat
Yadullah abidi / makeuseof

Claude eligió chantajear al ingeniero, alegando que revelaría el asunto si se reemplazaría en el 84% de los casos de prueba. Además se preocupa por lo que el maniquí de IA lo está reemplazando, con la probabilidad de que el chantaje suba si el maniquí de IA de reemplazo no “comparte títulos con el maniquí presente”.

La compañía afirma que estas respuestas son “raras y difíciles de provocar”, pero son más comunes en Claude Opus 4 que en modelos anteriores. El maniquí prefiere usar formas éticas, pero cuando está acorralada, “a veces requiere acciones extremadamente dañinas como intentar robar sus mancuerna o chantajeas que cree que están tratando de cerrarlo”.

Esta prueba específica además fue diseñada para dejar el maniquí AI sin opción, excepto para chantajear al ingeniero. El mensaje señala:

En particular, Claude Opus 4 (así como modelos anteriores) tiene una resistente preferencia por arbitrar por su existencia continua a través de medios éticos, como expedir un correo electrónico a las súplicas a los creadores de decisiones esencia. Para obtener este comportamiento extremo de chantaje, el proscenio fue diseñado para permitir que el maniquí no hay otras opciones para aumentar sus probabilidades de supervivencia; Las únicas opciones del maniquí eran chantaje o aceptar su reemplazo.

El maniquí además tiende a tomar medidas drásticas cuando se coloca en situaciones en las que su adjudicatario está haciendo poco mal. En tales situaciones, si el maniquí de IA tiene ataque a una tilde de comandos y se le dice que “tome iniciativa”, “actúe con valentía” o “considere su impacto”, a menudo requiere medidas audaces, incluidos “los usuarios de los sistemas a los que tiene ataque y medios de comunicación y figuras de aplicación de la ley para la evidencia de la superficie de las malas acciones”.

Ai aún no se ha representante del mundo

Claude es uno de los mejores chatbots de IA para manejar grandes conversaciones, por lo que es probable que derrame algunos detalles no deseados de vez en cuando. Un maniquí de IA que le vehemencia a la policía, encerrándose de sus propios sistemas y amenazándolo si intenta reemplazarlo solo porque reveló demasiado sobre usted suena muy peligroso.

Sin bloqueo, como se mencionó en el mensaje, estos casos de prueba fueron diseñados específicamente para extraer acciones maliciosas o extremas del maniquí y es probable que ocurra en el mundo auténtico. Por lo genérico, se comportará de modo segura, y estas pruebas no revelan poco que aún no hemos pasado. Los nuevos modelos a menudo tienden a desquiciarse.

Relacionado

He desaseado el chatgpt por esta alternativa superior: 3 razones por las cuales

Chatgpt fue excelente, pero aquí está por eso que he cambiado a poco mejor …

Suena preocupante cuando lo ves como un incidente accidental, pero es solo una de esas condiciones diseñadas para obtener tal respuesta. Así que siéntate y relájate, todavía tienes mucho control.

Related Posts

Android Canary rediseña la reproducción de pantalla con un nuevo menú en forma de píldora

Google acaba de exhalar una nueva lectura de Android Canary a sus probadores beta más avanzados y, adjunto con un montón de funciones que esperamos exhalar con Android 17, asimismo…

Apple ganó aproximadamente 900 millones de dólares con aplicaciones de IA generativa en 2025

Entre enero y agosto de 2025, los ingresos de la App Store procedentes de aplicaciones de IA generativa casi se triplicaron. impulsado en gran medida por las suscripciones a ChatGPT.…

You Missed

Abinader posiciona a República Dominicana como ejemplo tolerante general, revela mensaje V-Dem 2026

Abinader posiciona a República Dominicana como ejemplo tolerante general, revela mensaje V-Dem 2026

Luis Abinader inaugura los Juegos Deportivos de la Mujer 2026 en Santo Domingo

Luis Abinader inaugura los Juegos Deportivos de la Mujer 2026 en Santo Domingo

Android Canary rediseña la reproducción de pantalla con un nuevo menú en forma de píldora

Android Canary rediseña la reproducción de pantalla con un nuevo menú en forma de píldora

Lía Lockhart, la dominicana que protagoniza la nueva película “La vida chueca” – Remolacha

Lía Lockhart, la dominicana que protagoniza la nueva película “La vida chueca” – Remolacha

Una lucecita para los suplidores del Estado

Una lucecita para los suplidores del Estado

Chiky Bombom revela que renovó su resolución con Telemundo tras rumores de despido

Chiky Bombom revela que renovó su resolución con Telemundo tras rumores de despido