Anthrope destruyó millones de libros impresos para construir sus modelos de IA

Anthrope destruyó millones de libros impresos para construir sus modelos de IA

Pero si no está íntimamente familiarizado con la industria de la IA y los derechos de autor, puede preguntarse: ¿por qué una empresa gastaría millones de dólares en libros para destruirlos? Detrás de estas extrañas maniobras legales se encuentran un impulsor más fundamental: el anhelo insaciable de la industria de la IA por texto de reincorporación calidad.

La carrera por datos de entrenamiento de reincorporación calidad

Para comprender por qué Anthrope querría escanear millones de libros, es importante memorizar que los investigadores de IA construyen modelos de idiomas grandes (LLM) como los que encienden Chatgpt y Claude al impulsar miles de millones de palabras en una red neuronal. Durante la capacitación, el sistema AI procesa el texto repetidamente, construyendo relaciones estadísticas entre palabras y conceptos en el proceso.

La calidad de los datos de capacitación alimentados en la red neuronal afecta directamente las capacidades del maniquí de IA resultante. Los modelos entrenados en libros y artículos proporcionadamente editados tienden a producir respuestas más coherentes y precisas que las capacitadas en texto de beocio calidad como comentarios aleatorios de YouTube.

Los editores controlan legalmente el contenido que las compañías de IA desean desesperadamente, pero las compañías de IA no siempre quieren negociar una abuso. El doctrina de primera liquidación Ofreció una decisión: una vez que adquisición un obra físico, puede hacer lo que quiera con esa copia, incluida destruirla. Eso significaba comprar libros físicos que ofrecían una decisión procesal.

Y, sin requisa, comprar cosas es costoso, incluso si es procesal. Entonces, al igual que muchas compañías de IA antaño, Anthrope inicialmente eligió el camino rápido y ligera. En la búsqueda de datos de capacitación de reincorporación calidad, el tribunal que presenta, Anthrope, Anthrope eligió primero acumular versiones digitalizadas de libros pirateados para evitar lo que el CEO Dario AmoDei llamó “Reglamentario/Actos/Slog de Negocios”, las complejas negociaciones de licencias con editores. Pero para 2024, Anthrope se había convertido en “no tan entusiasmado con” usar libros electrónicos pirateados “por razones legales” y necesitaba una fuente más segura.

Related Posts

Los agentes necesitan la búsqueda de vectores más que RAG

¿Cuál es el papel de las bases de datos vectoriales en el mundo de la IA agente? Ésa es una cuestión que las organizaciones han estado afrontando en los últimos…

La película de ciencia ficción de Will Smith que perdió potencial respaldo marcial por un detalle de la historia

Por cursi y ridículo que sea a veces en retrospectiva el éxito de taquilla de ciencia ficción de Roland Emmerich de 1996 “Día de…

You Missed

Netflix invertirá hasta 600 millones de dólares en empresa de IA fundada por Ben Affleck

Netflix invertirá hasta 600 millones de dólares en empresa de IA fundada por Ben Affleck

Embajada de EE. UU. anuncia reapertura de la DEA

Embajada de EE. UU. anuncia reapertura de la DEA

Aplazan para el próximo martes audiencia del caso Calamar

Aplazan para el próximo martes audiencia del caso Calamar

Anticiclón traerá buen clima para éste viernes

Anticiclón traerá buen clima para éste viernes

Seguros Reservas anejo a corredores de seguros celebra su vigésimo cuarto aniversario

Seguros Reservas anejo a corredores de seguros celebra su vigésimo cuarto aniversario

Los agentes necesitan la búsqueda de vectores más que RAG

Los agentes necesitan la búsqueda de vectores más que RAG