
Las actualizaciones recientes a ChatGPT hicieron que el chatbot fuera demasiado agradable y OpenAi dijo el viernes que está tomando medidas para evitar que el problema vuelva a suceder.
En blogla compañía detalló su proceso de prueba y evaluación para nuevos modelos y describió cómo surgió el problema con la aggiornamento del 25 de abril a su maniquí GPT-4O. Esencialmente, un montón de cambios que individualmente parecían aperos combinados para crear una utensilio que era demasiado sycofántica y potencialmente dañina.
¿Qué tan chupada fue? En algunas pruebas a principios de esta semana, preguntamos acerca de una tendencia a ser demasiado sentimental, y Chatgpt puso sobre la adulación: “Oye, audición: ser sentimental no es una cariño; es uno de tus superpoderes“Y estaba comenzando ser satisfecho.
“Este emanación nos enseñó una serie de lecciones. Incluso con lo que pensamos que eran todos los ingredientes correctos en su lado (pruebas A/B, evals fuera de ruta, revisiones de expertos), todavía nos perdimos este importante problema”, dijo la compañía.
OpenAi retrocedió la aggiornamento esta semana. Para evitar causar nuevos problemas, tardó unas 24 horas en revertir el maniquí para todos.
La preocupación en torno a la sileno no se alcahuetería solo del nivel de disfrute de la experiencia del legatario. Planteó una amenaza de sanidad y seguridad para los usuarios que se perdieron los controles de seguridad existentes de OpenAI. Cualquier maniquí de IA puede dar consejos cuestionables sobre temas como la sanidad mental, pero uno que sea demasiado halagador puede ser peligrosamente deferente o convincente, como si esa inversión sea segura o lo flaca que debe tratar de ser.
“Una de las lecciones más importantes es registrar completamente cómo las personas han comenzado a usar ChatGPT para obtener consejos profundamente personales, poco que no vimos tanto hace un año”, dijo Openii. “En ese momento, este no era un enfoque principal, pero como AI y la sociedad han evolucionado co-evolucionando, queda claro que necesitamos tratar este caso de uso con gran cuidado”.
Los modelos sycophánticos de estilo ilustre pueden acrecentar los prejuicios y insensibilizar las creencias, ya sea que sean sobre usted u otros, dijo Maarten SAP, profesor asistente de informática en la Universidad Carnegie Mellon. “(El LLM) puede terminar envalentonando sus opiniones si estas opiniones son dañinas o si quieren tomar medidas que sean perjudiciales para sí mismos o para los demás”.
(Divulgación: Ziff Davis, empresa matriz de CNET, en abril presentó una demanda contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA).
Cómo Operai prueba los modelos y lo que está cambiando
La compañía ofreció una idea de cómo prueba sus modelos y actualizaciones. Esta fue la villa aggiornamento importante de GPT-4O centrada en la personalidad y la ayuda. Los cambios involucraron un nuevo trabajo posterior a la capacitación o un ajuste fino en los modelos existentes, incluida la calificación y la evaluación de diversas respuestas a las indicaciones para que sea más probable que produzca esas respuestas que calificaron más enormemente.
Las posibles actualizaciones del maniquí se evalúan sobre su utilidad en una variedad de situaciones, como la codificación y las matemáticas, inmediato con las pruebas específicas de los expertos para examinar cómo se comporta en la ejercicio. La compañía todavía realiza evaluaciones de seguridad para ver cómo rebate a la seguridad, la sanidad y otras consultas potencialmente peligrosas. Finalmente, Operai ejecuta pruebas A/B con un pequeño número de usuarios para ver cómo funciona en el mundo vivo.
¿Chatgpt es demasiado sycofántico? Tu decide. (Para ser justos, pedimos una charla sobre nuestra tendencia a ser demasiado sentimental).
La aggiornamento del 25 de abril funcionó aceptablemente en estas pruebas, pero algunos probadores expertos indicaron que la personalidad parecía un poco apagada. Las pruebas no observaron específicamente la sileno, y OpenAi decidió avanzar a pesar de los problemas planteados por los evaluadores. Tome nota, lectores: las compañías de inteligencia sintético tienen una prisa en la pan dulce, que no siempre se enfrenta aceptablemente al crecimiento de productos aceptablemente pensado.
“Mirando en dirección a a espaldas, las evaluaciones cualitativas insinuaban poco importante y deberíamos ocurrir prestado más atención”, dijo la compañía.
Entre sus conclusiones, Openai dijo que necesita tratar los problemas de comportamiento del maniquí igual que otros problemas de seguridad, y detener un emanación si hay preocupaciones. Para algunos lanzamientos de modelos, la compañía dijo que tendría una grado “alfa” de suscripción para obtener más comentarios de los usuarios ayer de un emanación más amplio.
SAP dijo que evaluar una LLM en función de si a un legatario le gusta la respuesta no necesariamente le dará el chatbot más honesto. En estudio nuevoSAP y otros encontraron un conflicto entre la utilidad y la certeza de un chatbot. Lo comparó con situaciones en las que la verdad no es necesariamente lo que la clan quiere: piense en un tendero de automóviles que intenta entregar un transporte.
“El problema aquí es que estaban confiando en la respuesta de los usuarios en dirección a en lo alto/pulgar en dirección a debajo a los resultados del maniquí y eso tiene algunas limitaciones porque es probable que las personas voten poco más sycofántico que otros”, dijo.
SAP dijo que Openai tiene razón al ser más crítico con la feedback cuantitativa, como las respuestas de User Up/Down, ya que pueden acrecentar los sesgos.
El problema todavía destacó la velocidad a la que las empresas impulsan las actualizaciones y cambian a los usuarios existentes, dijo SAP, un problema que no se limita a una compañía tecnológica. “La industria de la tecnología positivamente ha tomado una ‘huida y cada legatario es un enfoque de Beta Tester’ para las cosas”, dijo. Tener un proceso con más pruebas ayer de que se impulsen las actualizaciones a cada legatario puede sacar a la luz estos problemas ayer de que se generalicen.