Las empresas de IA dicen que no pueden respetar los derechos de autor. Pero los investigadores de una ordenamiento sin fines de interés acaban de construir un conjunto de datos que respeta los derechos de autor

¿Es el material con derechos de autor un requisito para la capacitación de IA? pregunta el Washington Post. Eso es lo que las principales compañías de IA están discutiendo, y “Pocos desarrolladores de IA han intentado la ruta más ética, hasta ahora.

“Un agrupación de más de dos docenas de investigadores de IA ha descubierto que podrían construir un conjunto de datos masivo de ocho terabytes utilizando solo un texto que tenía osadía abierta o en dominio manifiesto. Probaron la calidad del conjunto de datos utilizandolo para capacitar un maniquí de verbo de parámetros de 7 mil millones, que realizaba esfuerzos de la industria comparables, como LLAMA 2-7B, qué meta liberó en 2023.” “.

Un artículo publicado el jueves Detallando su esfuerzo igualmente revela que el proceso fue minucioso, arduo e increíble de automatizar completamente. El agrupación construyó un maniquí de IA que es significativamente más pequeño que el postrero que ofrece el chatgpt de Openai o Géminis de Google, pero sus hallazgos parecen representar el esfuerzo más sobresaliente, más transparente y riguroso para demostrar una forma diferente de construir herramientas de IA populares …

Como resultado, la tarea involucra a muchos humanos. Esto se debe a los desafíos técnicos de los datos que no se están formateando de una modo que sea fácil por máquina, así como por los desafíos legales de descubrir qué osadía se aplica a qué sitio web, una perspectiva desalentadora cuando la industria está llena de datos con osadía incorrectamente. “Esto no es poco en el que pueda ampliar los bienes que tiene disponibles” como el entrada a más chips de computadora y un elegante raspador web, dijo Stella Biderman (directora ejecutiva del Instituto de Investigación sin fines de interés Eleuther AI). “Utilizamos herramientas automatizadas, pero todas nuestras cosas fueron anotadas manualmente al final del día y las verificadas por la muchedumbre. Y eso es en realidad difícil”.

Aún así, el agrupación logró descubrir nuevos conjuntos de datos que se pueden usar éticamente. Esos incluyen un conjunto de 130,000 libros en inglés en la Biblioteca del Congreso, que es casi el doble del tamaño del plan de datos de datos populares Gutenberg. La iniciativa del agrupación igualmente se base en esfuerzos recientes para desarrollar conjuntos de datos más éticos, pero aún avíos, como Fina Desde abrazar la cara, el repositorio de código descubierto para el educación instintivo … aún así, Biderman se mantuvo escéptico de que este enfoque podría encontrar suficiente contenido en radio para que coincida con el tamaño de los modelos de vanguardia de hoy … Biderman dijo que no esperaba que compañías como OpenAI y Anthrope comenzaran a adoptar el mismo proceso arduo, pero esperaba que les alentara al menos a 2021 o 2022, cuando las compañías AI de AI, cuando sus sentencias todavía compartían las compañías de AI, cuando sus sentencias al menos les alentaban a 2022. entrenado.

“Incluso la transparencia parcial tiene una gran cantidad de valencia social y una cantidad moderada de valencia irrefutable”, dijo.

Related Posts

Revisión: Elo Vagabond es un gran compensador de solaz de tamaño completo para su iPhone o iPad Mini

Con el nuevo relanzamiento de Fortnite en la nueva aplicación de juegos de iOS y Apple para iOS 26, ahora es un mejor momento que nunca para designar un compensador…

FAA para eliminar los discos de disquete utilizados en los sistemas de control de tráfico ligero: Windows 95 además se está eliminando gradualmente

El presidente de la Despacho Federal de Aviación simplemente describió un objetivo avaricioso para poner al día el sistema de control de tráfico ligero (ATC) de los Estados Unidos y…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Revisión: Elo Vagabond es un gran compensador de solaz de tamaño completo para su iPhone o iPad Mini

Revisión: Elo Vagabond es un gran compensador de solaz de tamaño completo para su iPhone o iPad Mini

Temas banales

Temas banales

FAA para eliminar los discos de disquete utilizados en los sistemas de control de tráfico ligero: Windows 95 además se está eliminando gradualmente

FAA para eliminar los discos de disquete utilizados en los sistemas de control de tráfico ligero: Windows 95 además se está eliminando gradualmente

Amplíe su Mac Mini M4 con este elegante parada que ofrece puertos, refrigeramiento y almacenamiento de hasta 16 tb

Amplíe su Mac Mini M4 con este elegante parada que ofrece puertos, refrigeramiento y almacenamiento de hasta 16 tb

¿Qué pasa con el pueblo?

¿Qué pasa con el pueblo?

Cambio climático recibe menos del 10% del compra ambiental en RD, según la ONE

Cambio climático recibe menos del 10% del compra ambiental en RD, según la ONE