
Es posible que OpenAI pronto se vea obligado a explicar por qué eliminó un par de conjuntos de datos controvertidos compuestos de libros pirateados, y lo que está en equipo no podría ser anciano.
En el centro de una demanda colectiva de autores que alegan que ChatGPT fue entrenado ilegalmente en sus trabajos, la valor de OpenAI de eliminar los conjuntos de datos podría terminar siendo un coeficiente fundamental que les dé la vencimiento a los autores.
Es indiscutible que OpenAI eliminó los conjuntos de datos, conocidos como “Libros 1” y “Libros 2”, antaño del tirada de ChatGPT en 2022. Creados por exempleados de OpenAI en 2021, los conjuntos de datos se crearon raspando la web abierta y aprovechando la anciano parte de sus datos de una biblioteca paralela convocatoria Library Genesis (LibGen).
Como dice OpenAI, los conjuntos de datos dejaron de utilizarse ese mismo año, lo que provocó una valor interna de eliminarlos.
Pero los autores sospechan que hay más en la historia que eso. Señalaron que OpenAI pareció dar un locución al retractarse de su afirmación de que la “no utilización” de los conjuntos de datos era un motivo para la asesinato, y luego afirmó que todas las razones para la asesinato, incluida la “no utilización”, deberían guarecerse bajo el privilegio de abogado-cliente.
Para los autores, parecía que OpenAI estaba dando marcha antes rápidamente a posteriori de que el tribunal concediera las solicitudes de descubrimiento de los autores para revisar los mensajes internos de OpenAI sobre la “no utilización” de la empresa.
De hecho, la reversión de OpenAI solo hizo que los autores estuvieran más ansiosos por ver cómo OpenAI discutía la “no utilización”, y ahora podrían descubrir todas las razones por las cuales OpenAI eliminó los conjuntos de datos.
La semana pasada, la jueza de distrito estadounidense Ona Wang metódico OpenAI compartirá todas las comunicaciones con los abogados internos sobre la asesinato de los conjuntos de datos, así como “todas las referencias internas a LibGen que OpenAI ha redactado o retenido sobre la pulvínulo del privilegio abogado-cliente”.
Según Wang, OpenAI cometió un error al argumentar que la “no utilización” no era una “razón” para eliminar los conjuntos de datos, al mismo tiempo que afirmaba que igualmente debería considerarse una “razón” considerada privilegiada.






