Un liga de investigadores realizó un examen de “no calificado” de guisa estafa en una de las comunidades más populares de Reddit utilizando comentarios generados por IA para probar la persuasión de los modelos de idiomas grandes. El examen que fue revelado Durante el fin de semana por moderadores de R/Changemyview, es descrito por Reddit Mods como “manipulación psicológica” de usuarios desprevenidos.
“El equipo de CMV MOD necesita informar a la comunidad de CMV sobre un examen no calificado realizado por investigadores de la Universidad de Zurich sobre usuarios de CMV”, escribieron los moderadores del subreddit en una larga publicación que notifica a los redditores de Redditores sobre la investigación. “Este examen desplegó comentarios generados por IA para estudiar cómo se podría usar AI para cambiar las opiniones”.
Los investigadores usaron LLM para crear comentarios en respuesta a publicaciones en R/Changemyview, un subreddit donde los usuarios de Reddit publican opiniones (a menudo controvertidas o provocativas) y solicitan el debate de otros usuarios. La comunidad tiene 3.8 millones de miembros y a menudo termina en la portada de Reddit. Según los moderadores del Subreddit, la IA asumió numerosas identidades diferentes en los comentarios durante el curso del examen, incluido un sobreviviente de asalto sexual, un maestro de trauma “especializado en alcaldada” y un “hombre desfavorable opuesto a las vidas negras importantes”. Desde entonces, muchos de los comentarios originales se han eliminado, pero algunos aún se pueden ver en un archivo creado por 404 medios.
En un proyecto De su artículo, los investigadores no identificados describen cómo no solo usaron la IA para producir respuestas, sino que intentó personalizar sus respuestas basadas en la información obtenida de la historia previa de Reddit del póster innovador. “Por otra parte del contenido del Post, los LLM recibieron atributos personales de la OP (mercaderías, años, etnia, ubicación y orientación política), como se infiere de su historial de publicación utilizando otro LLM”, escriben.
Los moderadores R/ChnageMyview señalan que las reglas subreddit múltiples violaron múltiples de los investigadores, incluida una política que requiere la divulgación cuando la IA se usa para producir comentarios y una regla que prohíbe los bots. Dicen que presentaron una queja oficial en presencia de la Universidad de Zúrich y solicitaron a los investigadores retener la publicación de su trabajo.
Reddit asimismo parece estar considerando algún tipo de energía lícito. Director lícito Ben Lee respondido Para la controversia del lunes, escribiendo que las acciones de los investigadores estaban “profundamente equivocadas tanto en un nivel honesto como lícito” y una violación de las reglas de Reddit en todo el sitio.
Hemos prohibido todas las cuentas asociadas con el esfuerzo de investigación de la Universidad de Zúrich. Por otra parte, si perfectamente pudimos detectar muchas de estas cuentas falsas, continuaremos fortaleciendo nuestras capacidades de detección de contenido no auténtico, y hemos estado en contacto con el equipo de moderación para avalar que hemos eliminado cualquier contenido generado por IA asociado con esta investigación.
Estamos en el proceso de demorar a la Universidad de Zúrich y a este equipo de investigación particular con demandas legales formales. Queremos hacer todo lo posible para apoyar a la comunidad y avalar que los investigadores sean responsables de sus fechorías aquí.
En un correo electrónico, los investigadores de la Universidad de Zurich dirigieron a Engadget al área de relaciones con los medios de la Universidad, que no respondió de inmediato a las preguntas. En publicaciones sobre Reddit y en un proyecto de su artículo, los investigadores dijeron que su investigación había sido aprobada por un comité de ética universitaria y que su trabajo podría ayudar a las comunidades en camino como Reddit a proteger a los usuarios de usos más “maliciosos” de la IA.
“Reconocemos la posición de los moderadores de que este estudio fue una intrusión desagradable en su comunidad, y entendemos que algunos de ustedes pueden sentirse incómodos de que este examen se haya llevado a término sin su consentimiento”, escribieron los investigadores en comentario respondiendo a las modificaciones r/Changemyview. “Creemos que los beneficios potenciales de esta investigación superan sustancialmente sus riesgos. Nuestro estudio controlado y de bajo aventura proporcionó una valiosa información sobre las capacidades persuasivas del mundo auténtico de los LLM, la capacidad que ya son fácilmente accesibles para cualquier persona y que los actores maliciosos ya podrían explotar a escalera por razones mucho más peligrosas (EG, manipular las elecciones o incitar el discurso odio)”.
Las modificaciones para la disputa de R/Changemyview de que la investigación era necesaria o novedosa, señalando que los investigadores de OpenAI han realizado experimentos utilizando datos de R/Changemyview “sin tantear en sujetos humanos no consentidos”.
“La gentío no viene aquí para discutir sus puntos de audiencia con AI o para ser experimentado”, escribieron los moderadores. “Las personas que visitan nuestro sub merecen un espacio desocupado de este tipo de intrusión”.
Aggiornamento, 28 de abril de 2025, 3:45 pm PT: Esta publicación se actualizó para juntar detalles de una confesión del director lícito de Reddit.