
Pero si no está íntimamente familiarizado con la industria de la IA y los derechos de autor, puede preguntarse: ¿por qué una empresa gastaría millones de dólares en libros para destruirlos? Detrás de estas extrañas maniobras legales se encuentran un impulsor más fundamental: el anhelo insaciable de la industria de la IA por texto de reincorporación calidad.
La carrera por datos de entrenamiento de reincorporación calidad
Para comprender por qué Anthrope querría escanear millones de libros, es importante memorizar que los investigadores de IA construyen modelos de idiomas grandes (LLM) como los que encienden Chatgpt y Claude al impulsar miles de millones de palabras en una red neuronal. Durante la capacitación, el sistema AI procesa el texto repetidamente, construyendo relaciones estadísticas entre palabras y conceptos en el proceso.
La calidad de los datos de capacitación alimentados en la red neuronal afecta directamente las capacidades del maniquí de IA resultante. Los modelos entrenados en libros y artículos proporcionadamente editados tienden a producir respuestas más coherentes y precisas que las capacitadas en texto de beocio calidad como comentarios aleatorios de YouTube.
Los editores controlan legalmente el contenido que las compañías de IA desean desesperadamente, pero las compañías de IA no siempre quieren negociar una abuso. El doctrina de primera liquidación Ofreció una decisión: una vez que adquisición un obra físico, puede hacer lo que quiera con esa copia, incluida destruirla. Eso significaba comprar libros físicos que ofrecían una decisión procesal.
Y, sin requisa, comprar cosas es costoso, incluso si es procesal. Entonces, al igual que muchas compañías de IA antaño, Anthrope inicialmente eligió el camino rápido y ligera. En la búsqueda de datos de capacitación de reincorporación calidad, el tribunal que presenta, Anthrope, Anthrope eligió primero acumular versiones digitalizadas de libros pirateados para evitar lo que el CEO Dario AmoDei llamó “Reglamentario/Actos/Slog de Negocios”, las complejas negociaciones de licencias con editores. Pero para 2024, Anthrope se había convertido en “no tan entusiasmado con” usar libros electrónicos pirateados “por razones legales” y necesitaba una fuente más segura.






