Operai admite que las salvaguardas de chatgpt fallan durante las conversaciones extendidas

Adam Raine aprendió a evitar estas salvaguardas al afirmar que estaba escribiendo una historia, una técnica que la demanda dice que Chatgpt sugirió. Esta vulnerabilidad se deriva en parte de las salvaguardas facilitadas con respecto al mecanismo de roles de pretención y los escenarios de ficción implementados en febrero. En su publicación de blog del martes, OpenAI admitió que sus sistemas de separación de contenido tienen brechas donde “el clasificador subestima la pesantez de lo que está viendo”.

Openai afirma que “actualmente no se refiere a los casos de autolesión a la policía para respetar la privacidad de las personas dada la naturaleza única de las interacciones ChatGPT”. La compañía prioriza la privacidad del beneficiario incluso en situaciones que amenazan la vida, a pesar de que su tecnología de moderación detecta contenido de autolesiones con hasta un 99.8 por ciento de precisión, según la demanda. Sin incautación, la ingenuidad es que los sistemas de detección identifican patrones estadísticos asociados con el jerigonza de autolesiones, no una comprensión humana de las situaciones de crisis.

Plan de seguridad de Openai para el futuro

En respuesta a estas fallas, OpenAI describe refinamientos en curso y planes futuros en su publicación de blog. Por ejemplo, la compañía dice que está consultando con “más de 90 médicos en más de 30 países” y planea introducir controles de los padres “pronto”, aunque aún no se ha proporcionado una serie de tiempo.

Operai todavía describió los planes para “conectar a las personas con terapeutas certificados” a través de ChatGPT, posicionando esencialmente su chatbot como una plataforma de vigor mental a pesar de los supuestos fracasos como el caso de Raine. La compañía quiere construir “una red de profesionales con inmoralidad que las personas puedan conservarse directamente a través de ChatGPT”, potencialmente promoviendo la idea de que un sistema de IA debería mediar las crisis de vigor mental.

Según los informes, Raine usó GPT-4O para producir las instrucciones de audiencia al suicidio; El maniquí es conocido por tendencias problemáticas como la sycophancy, donde un maniquí de IA les dice a los usuarios agradables cosas, incluso si no son ciertas. Operai afirma que su maniquí publicado recientemente, GPT-5, reduce las “respuestas del maniquí no ideal en emergencias de vigor mental en más del 25% en comparación con 4O”. Sin incautación, esta progreso aparentemente insignificante no ha impedido que la compañía planee fijar el chatgpt aún más profundamente en los servicios de vigor mental como una puerta de entrada a los terapeutas.

Como ARS exploró anteriormente, liberarse de la influencia de un chatbot de IA cuando se atasca en una helicoidal de chat engañosa a menudo requiere una intervención externa. Comenzar una nueva sesión de chat sin historial de conversación y los memorias apagados pueden revelar cómo cambian las respuestas sin la acumulación de intercambios anteriores, una demostración de la ingenuidad que se vuelve inútil en largas conversaciones aisladas donde las salvaguardas se deterioran.

Sin incautación, “liberarse” de ese contexto es muy difícil de hacer cuando el beneficiario desea activamente continuar participando en el comportamiento potencialmente dañino, mientras usa un sistema que monetiza cada vez más su atención e intimidad.