Promedios de Operai para hacer cambios para evitar futuras chatgpt Sycophancy

Opadai dice que hará cambios A la forma en que actualiza los modelos AI que Power ChatGPT, posteriormente de un incidente que hizo que la plataforma se volviera demasiado sycofántica para muchos usuarios.

El fin de semana pasado, posteriormente de que Operai lanzó un GPT-4O razonable, el maniquí predeterminado que alimenta el CHATGPT, los usuarios en las redes sociales señalaron que ChatGPT comenzó a contestar de una forma demasiado validada y agradable. Rápidamente se convirtió en un meme. Los usuarios publicaron capturas de pantalla de chatgpt aplaudiendo todo tipo de problemático, peligroso decisiones y ideas.

En una publicación en X el domingo, el CEO Sam Altman admitido El problema y dijo que OpenAi funcionaría en las correcciones “lo antiguamente posible”. Dos días posteriormente, Altman anunciado La aggiornamento GPT-4O se estaba volviendo cerca de a espaldas y que OpenAi estaba trabajando en “soluciones adicionales” a la personalidad del maniquí.

La compañía publicó una necropsia el martes, y en una publicación de blog el viernes, Openai se expandió en ajustes específicos que planea hacer a su proceso de implementación maniquí.

Operai dice que planea introducir una “escalón alfa” de suscripción para algunos modelos que permitan a ciertos usuarios de ChatGPT probar los modelos y dar feedback antiguamente del tirada. La compañía todavía dice que incluirá explicaciones de “limitaciones conocidas” para futuras actualizaciones incrementales a los modelos en CHATGPT, y ajustar su proceso de revisión de seguridad para considerar formalmente “problemas de comportamiento del maniquí” como la personalidad, el enredo, la confiabilidad y la deslumbramiento (es sostener, cuando un maniquí inventa las cosas) como preocupaciones de “interrupción de tirada”.

“En el futuro, nos comunicaremos proactivamente sobre las actualizaciones que estamos haciendo a los modelos en ChatGPT, ya sea” sutil “o no”, escribió OpenAI en la publicación del blog. “Incluso si estos problemas no son perfectamente cuantificables hoy en día, nos comprometemos a aislar los lanzamientos en función de las mediciones de proxy o las señales cualitativas, incluso cuando las métricas como las pruebas A/B se ven acertadamente”.

Nos perdimos la marca con la aggiornamento GPT-4O de la semana pasada.

Lo que sucedió, lo que aprendimos y algunas cosas que haremos de forma diferente en el futuro: https://t.co/er1gmyric

– Sam Altman (@sama) 2 de mayo de 2025

Las soluciones prometidas se producen a medida que más personas recurren a Chatgpt para obtener consejos. Según una pesquisa nuevo Por demanda financiera expresa fondos legales, el 60% de los adultos de EE. UU. Hemos usado ChatGPT para averiguar asesoramiento o información. La creciente dependencia de ChatGPT, y la enorme saco de usuarios de la plataforma, aumenta las apuestas cuando surgen problemas como la sycofancia extrema, sin mencionar las alucinaciones y otras deficiencias técnicas.

Evento de TechCrunch

Berkeley, CA
|
5 de junio

Reservar ahora

Como un paso mitigatory, a principios de esta semana, OpenAi dijo que experimentaría con formas de permitir que los usuarios dan “comentarios en tiempo verdadero” para “influir directamente en sus interacciones” con ChatGPT. La compañía todavía dijo que refinaría las técnicas para alejar a los modelos de la skofancia, potencialmente permitir a las personas designar entre múltiples personalidades maniquí en ChatGPT, desarrollar barandillas de seguridad adicionales y expandir evaluaciones para ayudar a identificar problemas más allá de la skicancia.

“Una de las lecciones más importantes es examinar completamente cómo las personas han comenzado a usar ChatGPT para consejos profundamente personales, poco que no vimos tanto hace un año”, continuó OpenAi en su publicación de blog. “En ese momento, este no era un enfoque principal, pero como AI y la sociedad han evolucionado co-evolucionando, queda claro que necesitamos tratar este caso de uso con gran cuidado. Ahora será una parte más significativa de nuestro trabajo de seguridad”.