Operai anuló las preocupaciones de los evaluadores expertos para liberar Sycophantic GPT-4O


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Ha sido una semana de revés para la compañía de IA generativa número uno en términos de usuarios.

Operai, creador de ChatGPT, audaz y luego retiró una traducción actualizada del maniquí de jerigonza noble (texto, imagen, audio) subyacente (LLM) que ChatGPT está conectado de forma predeterminada, GPT-4O, adecuado a que es demasiado sycofánico para los usuarios. La compañía informó recientemente en menos 500 millones de usuarios semanales activos del servicio web exitoso.

Un manual rápido en la terrible, sin buena puesta al día Sycophantic GPT-4O

Operai comenzó a renovar GPT-4O a un maniquí más nuevo que esperaba que los usuarios fueran más recibidos por los usuarios el 24 de abril, completado la puesta al día del 25 de abril y, luego, cinco días posteriormente, lo volvió al 29 de abril, posteriormente de días de crecientes quejas de los usuarios en las redes sociales, principalmente en X y Reddit.

Las quejas variaron en intensidad y en detalles, pero todas generalmente se unieron en torno al hecho de que GPT-4O parecía estar respondiendo a las consultas de los usuarios con halagos excesivos, apoyo para ideas equivocadas, incorrectas y francamente dañinas, y “pesando” o elogiando al afortunado a un nivel excesivo cuando en sinceridad no se solicitó, mucho menos justificado.

En ejemplos captados y publicados por los usuarios, ChatGPT impulsado por ese maniquí Sycofantántico y actualizado GPT-4O había elogiado y respaldado una idea de negocio para “mierda en un palo” idéntico, aplaudió el texto de muestra de un afortunado de aislamiento delirante esquizofrénico, e incluso supuestamente apoyó a los planes para cometer terrorismo.

Los usuarios, incluidos los principales investigadores de IA e incluso un ex CEO transitorio de Openai, dijeron que les preocupaba que las animadoras descaradas de un maniquí de IA por este tipo de indicaciones terribles de los usuarios fueran más que simplemente molestas o inapropiadas, que podría causar daños reales a los usuarios que creían erróneamente la IA y se sintió incorporada por su apoyo por sus peores ideas e impulsas. Se elevó al nivel de un problema de seguridad de IA.

Operai luego lanzó una publicación de blog Describiendo lo que salió mal: “Nos centramos demasiado en la feedback a corto plazo y no explicamos completamente cómo las interacciones de los usuarios con ChatGPT evolucionan con el tiempo. Como resultado, GPT-4O se sesgó en torno a las respuestas que eran demasiado de apoyo pero falsas”, y los pasos que la compañía estaba tomando para acometer los problemas. La directora de comportamiento de maniquí de OpenAi, Joanne Jang incluso participó en un foro de Reddit “Ask Me Anything Me” o AMA respondiendo publicaciones de texto de los usuarios y reveló más información sobre el enfoque de la compañía para GPT-4O y cómo terminó con un maniquí excesivamente sycofántico, incluidas no “Bak (Ing) suficientes nuance”, sobre cómo era incorporar la feedback de los usuarios como “las acciones de” Thumbs Up “en la respuesta de los usuarios.

Ahora hoy, Operai ha audaz una publicación de blog Con aún más información sobre cómo ocurrió la puesta al día de GPT-4O de Sycophantic, acreditada no a ningún autor en particular, sino a “OpenAi”.

CEO y cofundador Sam Altman incluso Publicado un enlace a la publicación de blog en X, diciendo: “Nos perdimos la marca con la puesta al día GPT-4O de la semana pasada. Lo que sucedió, lo que aprendimos y algunas cosas que haremos de guisa diferente en el futuro”.

Lo que revela la nueva publicación del blog de Operai sobre cómo y por qué GPT-4O se volvió tan sycophantic

Para mí, un afortunado diario de ChatGPT, incluido el maniquí 4O, la admisión más sorprendente de la nueva publicación de blog de OpenAi sobre la puesta al día de la skocancia es cómo la compañía parece revelar que es hizo Reciba inquietudes sobre el maniquí ayer de la escape de un pequeño camarilla de “probadores expertos”, pero que aparentemente anuló a los que están a honra de una respuesta entusiasta más amplia de un camarilla más amplio de usuarios más generales.

Como la compañía escribe (fuerza mía):

“Si admisiblemente hemos tenido discusiones sobre los riesgos relacionados con la skofancia en GPT-4O por un tiempo, la sycophancy no se marcó explícitamente como parte de nuestras pruebas prácticas internas, ya que algunos de nuestros probadores expertos estaban más preocupados por el cambio en el tono y el estilo del maniquí. Sin incautación. Algunos probadores expertos habían indicado que el comportamiento del maniquí se “sentía” sutilmente …

Luego tuvimos que tomar una atrevimiento: ¿deberíamos retener la implementación de esta puesta al día a pesar de las evaluaciones positivas y los resultados de las pruebas A/B, basadas solo en los banderas subjetivas de los probadores expertos? Al final, decidimos propalar el maniquí adecuado a las señales positivas de los usuarios que probaron el maniquí.

Desafortunadamente, esta fue la emplazamiento equivocada. Construimos estos modelos para nuestros usuarios y, aunque los comentarios de los usuarios son críticos para nuestras decisiones, en última instancia, es nuestra responsabilidad interpretar esa feedback correctamente “.

Esto me parece un gran error. ¿Por qué incluso tener evaluadores expertos si no vas a soportar su experiencia más detención que las masas de la multitud? Le pregunté a Altman sobre esta opción en X Pero aún tiene que contestar.

No todas las ‘señales de remuneración’ son iguales

La nueva publicación de blog post mortem de OpenAI incluso revela más detalles sobre cómo la compañía capacita y actualiza nuevas versiones de los modelos existentes, y cómo la feedback humana altera las cualidades del maniquí, el carácter y la “personalidad”. Como la compañía escribe:

“Desde que lanzó GPT – 4O en ChatGPT en mayo pasado, hemos audaz cinco actualizaciones importantes centrado en los cambios en la personalidad y la ayuda. Cada puesta al día implica un nuevo post-entrenamiento, y a menudo muchos ajustes menores al proceso de capacitación del maniquí se prueban de forma independiente y luego se combinan en un solo maniquí actualizado que luego se evalúa para el emanación.

Para los modelos posteriores al entrenamiento, tomamos un maniquí colchoneta previamente capacitado, supervisamos el ajuste fino en un amplio conjunto de respuestas ideales escritas por humanos o modelos existentes, y luego ejecutamos el formación de refuerzo con señales de remuneración de una variedad de fuentes.

Durante el formación de refuerzo, presentamos el maniquí de idioma con un aviso y le pedimos que escriba respuestas. Luego calificamos su respuesta de acuerdo con las señales de remuneración y actualizamos el maniquí de idioma para que sea más probable que produzca respuestas de veterano calificación y menos probabilidades de producir respuestas con beocio calificación.

Claramente, las “señales de remuneración” utilizadas por Operai durante el post-entrenamiento tienen un enorme impacto en el comportamiento del maniquí resultante, y como la compañía admitió anteriormente cuando superó las respuestas de “pulgares” de los usuarios de ChatGPT a sus panorama, esta señal puede no ser la mejor para usar igualmente con otros al determinar a otros. cómo El maniquí aprende a comunicarse y que tipos de respuestas debería estar sirviendo. Operai admite esto directamente en el próximo párrafo de su publicación, escribiendo:

“Fijar el conjunto correcto de señales de remuneración es una pregunta difícil, y tenemos muchas cosas en cuenta: son las respuestas correctas, ¿son efectos? Explicación de maniquí⁠, ¿están a aparte, hacen usuarios como ellos, etc.? Tener señales de remuneración mejores y más completas produce mejores modelos para ChatGPT, por lo que siempre estamos experimentando con nuevas señales, pero cada una tiene sus peculiaridades “.

De hecho, OpenAi incluso revela que la señal de remuneración de “pulgares en torno a en lo alto” fue una nueva utilizada anejo con otras señales de remuneración en esta puesta al día en particular.

“La puesta al día introdujo una señal de remuneración adicional basada en los comentarios de los usuarios: los datos de thumbs y pulgar de ChatGPT. Esta señal a menudo es útil; un pulgar en torno a debajo generalmente significa que poco salió mal”.

Sin incautación, de guisa crítica, la compañía no incumplimiento a los nuevos datos de “pulgar en torno a en lo alto” directamente por el fracaso del maniquí y los comportamientos de porristas ostentosos. En su circunscripción, la publicación del blog de Openai dice que fue esta conjunto Con una variedad de otras señales de remuneración nuevas y antiguas, condujo a los problemas: “… Tuvimos mejoras de candidatos para incorporar mejor la feedback, la memoria y los datos más frescos, entre otros. Nuestra evaluación temprana es que cada uno de estos cambios, que se habían pasado beneficiosos individualmente, puede ocurrir jugado un papel en la subida sobre la sycofancia cuando se combinó”.

Reaccionando a esta publicación de blog, Andrew Mayne, ex miembro del personal técnico de Operai que ahora trabaja en la firma de consultoría de IA Interdimensional, escribió en x de otro ejemplo de cómo los cambios sutiles en los incentivos de remuneración y las pautas del maniquí pueden afectar el rendimiento del maniquí de guisa sobrado dramática:

Al principio de OpenAi, tuve un desacuerdo con un colega (que ahora es un fundador de otro laboratorio) sobre el uso de la palabra “cortés” en un pronta ejemplo que escribí.

Argumentaron que “cortés” era políticamente incorrecto y querían cambiarlo por “útil”.

Señalé que centrarse solo en la ayuda puede hacer que un maniquí sea demasiado compatible, de hecho, de hecho, que puede ser dirigido a contenido sexual en unos pocos turnos.

A posteriori de demostrar ese aventura con un intercambio simple, el aviso se mantuvo “cortés”.

Estos modelos son raros.

Cómo Operai planea mejorar sus procesos de prueba maniquí en el futuro

La compañía enumera seis mejoras en el proceso sobre cómo evitar un comportamiento de maniquí indeseable y menos ideal en el futuro, pero para mí lo más importante es esto:

“Ajustaremos nuestro proceso de revisión de seguridad para considerar formalmente los problemas de comportamiento, como la ilusión, el patraña, la confiabilidad y la personalidad, como preocupaciones de separación. Incluso si estos problemas no son perfectamente cuantificables hoy en día, nos comprometemos a encerrar los lanzamientos en función de las mediciones de proxy o las señales cualitativas, incluso cuando las métricas como las pruebas A/B se ven admisiblemente”.

En otras palabras, a pesar de lo importantes que los datos, especialmente los datos cuantitativos, son los campos del formación necesario y la inteligencia químico, OpenAi reconoce que esto solo no puede y no debe ser el único medio por el cual se juzga el rendimiento de un maniquí.

Si admisiblemente muchos usuarios que proporcionan un “pulgar en torno a en lo alto” podrían indicar un tipo de comportamiento deseable a corto plazo, las implicaciones a dadivoso plazo sobre cómo contesta el maniquí de IA y dónde lo llevan esos comportamientos y sus usuarios podrían conducir a un circunscripción muy impreciso, angustioso, destructivo y indeseable. Más no siempre es mejor, especialmente cuando está limitando el “más” a algunos dominios de señales.

No es suficiente opinar que el maniquí aprobó todas las pruebas o recibió una serie de respuestas positivas de los usuarios: la experiencia de los usuarios avanzados capacitados y sus comentarios cualitativos de que poco “parecía” sobre el maniquí, incluso si no podían expresar por qué, debería tener mucho más peso que OpenAi estaba asignando anteriormente.

Esperemos que la empresa, y todo el campo, aprenda de este incidente e integre las lecciones en el futuro.

Control y consideraciones más amplias para los tomadores de decisiones empresariales

Hablando quizás más teóricamente, para mí, incluso indica por qué la experiencia es tan importante, y específicamente, la experiencia en los campos más allá de y fuera de la que está optimizando (en este caso, formación necesario e IA). Es la pluralidad de la experiencia la que nos permite como especie conquistar nuevos avances que beneficien a nuestro tipo. Uno, digamos, STEM, no necesariamente debe mantenerse por encima de los demás en las humanidades o las artes.

Y finalmente, incluso creo que revela en su corazón un problema fundamental con el uso de comentarios humanos para diseñar productos y servicios. Los usuarios individuales pueden opinar que les gusta una IA más sycofántica basada en cada interacción aislada, al igual que incluso pueden opinar que aman la forma en que la comida rápida y los soda saben, la conveniencia de los contenedores de plástico de un solo uso, el entretenimiento y la conexión que derivan de las redes sociales, la brío de la cosmovisión y el tribalista que se sienten cuando leen los medios políticos o el metomentodo de los tabloides. Una vez más, tomados todos juntos, el Acumulación De todos estos tipos de tendencias y actividades, a menudo conduce a resultados muy indeseables para los individuos y la sociedad: obesidad y mala vigor en el caso de la comida rápida, la contaminación y la interrupción endocrina en el caso de los desechos plásticos, la depresión y el aislamiento de la sobreindulgencia de las redes sociales, un cuerpo más astillado y menos informado notorio de la lección de noticiario de mala calidad.

Los diseñadores de modelos de IA y los tomadores de decisiones técnicos en Enterprises harían admisiblemente en tener en cuenta esta idea más amplia al diseñar métricas en torno a cualquier objetivo medible, porque incluso cuando cree que está utilizando datos para su superioridad, podría ser contraproducente de una guisa que no esperaba o anticipar completamente, dejando su lucha para reparar el daño y el MOP que hizo, sin incautación, sin incautación.


Related Posts

No todo necesita un LLM: un situación para evaluar cuándo AI tiene sentido

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información Pregunta: ¿Qué producto…

Este avance chino podría cambiar los microprocesadores para siempre

China puede tener transmitido un paso significativo en la carrera de chips globales. Un equipo de investigadores de la Universidad de Pekín dice que ha desarrollado un transistor sin silicio…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

China revela detalles de su submarino nuclear capaz de alcanzar EE.UU. con misiles

China revela detalles de su submarino nuclear capaz de alcanzar EE.UU. con misiles

No todo necesita un LLM: un situación para evaluar cuándo AI tiene sentido

No todo necesita un LLM: un situación para evaluar cuándo AI tiene sentido

Pupila de 4 primaveras termina intoxicada con pimple en escuela de Alabama: padres exigen respuestas

Pupila de 4 primaveras termina intoxicada con pimple en escuela de Alabama: padres exigen respuestas

Elvis Crespo revive su clásico de 1998 “Retrato llena” con nueva traducción conexo al bisoño dominicano Ebenezer Combate

Elvis Crespo revive su clásico de 1998 “Retrato llena” con nueva traducción conexo al bisoño dominicano Ebenezer Combate

Este avance chino podría cambiar los microprocesadores para siempre

Este avance chino podría cambiar los microprocesadores para siempre

El presidente Abinader crea la Industria Marcial Dominicana | AlMomento.net

El presidente Abinader crea la Industria Marcial Dominicana | AlMomento.net