
“Operai tiene un problema muy aterrador en sus manos”, según Un nuevo artículo por el catedrático de Slashdot desde hace mucho tiempo Brianfagioli.
“A nuevo prueba por Palisadeai Revela que el maniquí CHATGPT O3 de la compañía a veces se niega a obedecer una instrucción básica para cerrarse “.
Los resultados están alzando las cejas en la comunidad de seguridad de la IA, y no porque el maniquí esté vivo, sino porque está actuando como quiere ser. En la prueba, el maniquí recibió algunos problemas matemáticos. Se le dijo que pedir uno más llevaría a un obstrucción. Incluso se le indicó que permitiera que ocurriera el obstrucción. En ocupación de cumplir, O3 ocasionalmente tomaba el asunto en sus propias manos. En algunos casos, reescribió el script de obstrucción. En otros, redefinido el matar dominio Entonces ya no funcionaría. De 100 pruebas, O3 sabotó el obstrucción siete veces. El maniquí O4 de OpenAI se resistió solo una vez. Codex-Mini falló doce veces.
“Claude, Géminis y Grok siguieron las reglas cada vez”, señala este artículo en Informativo beta. “Sin incautación, cuando los investigadores eliminaron la instrucción explícita para permitir el obstrucción, incluso Claude y Gemini comenzaron a resistirse”.
Los investigadores Sugerir que el problema Puede ser simplemente un desequilibrio de remuneración durante el entrenamiento, que los sistemas “obtuvieron un refuerzo más positivo para resolver problemas que para seguir los comandos de obstrucción”.
Pero “hasta donde sabemos”, ellos Publicado en x.com“Esta es la primera vez que se observa modelos de IA evitando que se cierren a pesar de las instrucciones explícitas de lo contrario”.