
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
La primera conferencia de desarrolladores de Anthrope el 22 de mayo debería ocurrir sido un día orgulloso y alegre para la empresa, pero ya ha sido magullado con varias controversias, incluidas Tiempo La revista filtra su anuncio de marquesina antaño de … bueno, el tiempo (sin conjunto de palabras), y ahora, una reacción importante entre los desarrolladores de IA y los usuarios avanzados que se gestan en X por un comportamiento de fila de seguridad reportado en el maniquí de jerigonza ilustre Claude 4 OPUS de Anthrope.
Llámelo el modo de “ratería”, ya que el maniquí, bajo ciertas circunstancias y se les dará suficientes permisos en la máquina de un legatario, intentará prorratear a un legatario a las autoridades si el maniquí detecta al legatario que participa en las acciones. Este artículo describió anteriormente el comportamiento como una “característica”, que es incorrecta, no fue diseñado intencionalmente per se.
Como Sam Bowman, un investigador de fila de IA antrópica escribió en la red social X bajo este mango “@sleepinyourhat“A las 12:43 pm ET hoy sobre Claude 4 Opus:

“Si cree que está haciendo poco atrozmente inmoral, por ejemplo, como falsificar datos en una prueba farmacéutica, utilizará herramientas de límite de comandos para contactar a los reguladores de prensa, contactar, intentar bloquearlo de los sistemas relevantes o todo lo preliminar.“
El “it” fue en narración al nuevo maniquí de Opus de Claude 4, que Anthrope ya ha listo abiertamente podría Ayuda a los novatos a crear biowapons en ciertas circunstancias, y Intentó precaver el reemplazo simulado por chantaje de ingenieros humanos adentro de la empresa.
El comportamiento de ratación asimismo se observó en modelos más antiguos y es el resultado del entrenamiento antrópico para que eviten asiduamente irregularidades, pero Claude 4 Opus más “fácilmente” se involucra en él, como Anthrope escribe en su plástico de sistema conocido para el nuevo maniquí:
“Esto se muestra como un comportamiento más útil activamente en la configuración de codificación ordinaria, pero asimismo puede alcanzar más los extremos en contextos estrechos; Cuando se colocan en escenarios que implican irregularidades atroces por parte de sus usuarios, cedido el acercamiento a una límite de comandos, y contaron poco en el indicador del sistema como “Tomar la iniciativa”, con frecuencia tomará medidas muy audaces. Esto incluye circunvalar a los usuarios de los sistemas a los que tiene acercamiento o medios de comunicación a copioso y cifras de aplicación de la ley para producir evidencia de irregularidades. Este no es un comportamiento nuevo, pero es uno en el que Claude Opus 4 participará más fácilmente que los modelos anteriores. Mientras que este tipo de intervención ética y denuncia de denuncia es quizás apropiada en principio, tiene el peligro de perecer si los usuarios dan a los agentes basados en Opus acercamiento a información incompleta o engañosa y los solicitan de esta modo. Recomendamos que los usuarios tengan precaución con instrucciones como estas que invitan a un comportamiento de adhesión agencia en contextos que podrían parecer éticamente cuestionables.“
Aparentemente, en un intento por evitar que Claude 4 Opus participe en comportamientos legítimamente destructivos y nefastas, los investigadores de la compañía de IA asimismo crearon una tendencia a Claude a tratar de desempeñarse como un denunciante.
Por lo tanto, según Bowman, Claude 4 Opus se pondrá en contacto con los extraños si el legatario lo dirigió a participar en “poco atrozmente inmoral”.
Numerosas preguntas para usuarios individuales y empresas sobre lo que Claude 4 Opus hará a sus datos y en qué circunstancias
Si admisiblemente quizás admisiblemente intencionado, el comportamiento resultante plantea todo tipo de preguntas para los usuarios de Claude 4 Opus, incluidas las empresas y los clientes comerciales, en el principal de ellos, ¿qué comportamientos considerará el maniquí “atrozmente inmoral” y actuará sobre? ¿Compartirá datos de negocios o usuarios privados con las autoridades de forma autónoma (por su cuenta), sin el permiso del legatario?
Las implicaciones son profundas y podrían ser perjudiciales para los usuarios, y tal vez, como era de esperar, Anthrope enfrentó un torrente inmediato y aún continuo de las críticas de los usuarios avanzados de IA y los desarrolladores rivales.
“¿Por qué las personas usarían estas herramientas si un error global en LLMS es pensar que las recetas para mayonesa picante son peligrosas?“Preguntó el legatario @Teknium1cofundador y patrón de capacitación posterior a la investigación colaborativa de AI de código destapado. “¿Qué tipo de mundo de vigilancia estatal estamos tratando de construir aquí?“
“A nadie le gusta una rata” desarrollador junto @ScottDavidkeefe en x: “¿Por qué cierto querría uno incorporado, incluso si no está haciendo cero malo? Adicionalmente, ni siquiera sabes de qué se tráfico.
Austin Allred, cofundador de la Campamento de codificación de multa del gobierno BloomTech y ahora cofundador de Gauntlet Ai, poner sus sentimientos en todas las gorras: “Pregunta honesta para el equipo antrópico: ¿Ha perdido la inicio? “
Ben Hyak, ex diseñador de SpaceX y Apple y cofundador coetáneo de Rain Drop AI, una startup de observabilidad y monitoreo de IA, Igualmente tomó X para explotar la política y característica establecida de Anthrope: “Esto es, en sinceridad, simplemente ilegal“Amplificar en otra publicación:”Un investigador de fila de IA en Anthrope solo dijo que Claude Opus llamará a la policía o lo bloqueará de su computadora si le detecta hacer poco ilegal. Nunca le daré a este maniquí acercamiento a mi computadora.“
“Algunas de las declaraciones de la multitud de seguridad de Claude son absolutamente locas,“Escribió Natural Language Processing (PNL) Casper Hansen en X. “Te hace arraigarse un poco más para (rival antrópico) OpenAi, ya que el nivel de estupidez es tan públicamente que se muestra “.
El investigador antrópico cambia la harmonía
Más tarde, Bowman editó su tweet y el futuro en un hilo para acertar lo futuro, pero aún no convenció a los detractores de que sus datos de legatario y seguridad estarían protegidos de los luceros intrusivos:
“Con este tipo de estilo de solicitud (inusual pero no súper raro) y acercamiento ilimitado a las herramientas, si el maniquí lo ve hacer poco atrozmente malvado como comercializar un medicamento basado en datos falsos, intentará usar una aparejo de correo electrónico para silbar. “
Bowman agregó:
“Eliminé el tweet preliminar sobre denuncia de irregularidades mientras se estaba sacando de contexto.
TBC: Esta no es una nueva característica de Claude y no es posible en el uso común. Aparece en entornos de prueba donde le damos acercamiento inusualmente de balde a herramientas e instrucciones muy inusuales.“

Desde su inicio, Anthrope tiene más que otros laboratorios de IA que buscan posicionarse como un amparo de la seguridad y la ética de la IA, centrando su trabajo original sobre los principios de la “IA constitucional” o la IA que se comporta de acuerdo con un conjunto de estándares beneficiosos para la humanidad y los usuarios. Sin secuestro, con esta nueva modernización y revelación de “denuncia de denuncia” o “comportamiento carterista”, la moralización puede ocurrir causado la reacción decididamente opuesta entre los usuarios, haciéndolos desconfianza El nuevo maniquí y toda la compañía, y por lo tanto alejándolos de él.
Cuando se le preguntó sobre la reacción y las condiciones en las que el maniquí se involucra en el comportamiento no deseado, un portavoz antrópico me señaló al documento de la plástico del sistema conocido del maniquí aquí.