Las empresas de IA dicen que no pueden respetar los derechos de autor. Pero los investigadores de una ordenamiento sin fines de interés acaban de construir un conjunto de datos que respeta los derechos de autor

¿Es el material con derechos de autor un requisito para la capacitación de IA? pregunta el Washington Post. Eso es lo que las principales compañías de IA están discutiendo, y “Pocos desarrolladores de IA han intentado la ruta más ética, hasta ahora.

“Un agrupación de más de dos docenas de investigadores de IA ha descubierto que podrían construir un conjunto de datos masivo de ocho terabytes utilizando solo un texto que tenía osadía abierta o en dominio manifiesto. Probaron la calidad del conjunto de datos utilizandolo para capacitar un maniquí de verbo de parámetros de 7 mil millones, que realizaba esfuerzos de la industria comparables, como LLAMA 2-7B, qué meta liberó en 2023.” “.

Un artículo publicado el jueves Detallando su esfuerzo igualmente revela que el proceso fue minucioso, arduo e increíble de automatizar completamente. El agrupación construyó un maniquí de IA que es significativamente más pequeño que el postrero que ofrece el chatgpt de Openai o Géminis de Google, pero sus hallazgos parecen representar el esfuerzo más sobresaliente, más transparente y riguroso para demostrar una forma diferente de construir herramientas de IA populares …

Como resultado, la tarea involucra a muchos humanos. Esto se debe a los desafíos técnicos de los datos que no se están formateando de una modo que sea fácil por máquina, así como por los desafíos legales de descubrir qué osadía se aplica a qué sitio web, una perspectiva desalentadora cuando la industria está llena de datos con osadía incorrectamente. “Esto no es poco en el que pueda ampliar los bienes que tiene disponibles” como el entrada a más chips de computadora y un elegante raspador web, dijo Stella Biderman (directora ejecutiva del Instituto de Investigación sin fines de interés Eleuther AI). “Utilizamos herramientas automatizadas, pero todas nuestras cosas fueron anotadas manualmente al final del día y las verificadas por la muchedumbre. Y eso es en realidad difícil”.

Aún así, el agrupación logró descubrir nuevos conjuntos de datos que se pueden usar éticamente. Esos incluyen un conjunto de 130,000 libros en inglés en la Biblioteca del Congreso, que es casi el doble del tamaño del plan de datos de datos populares Gutenberg. La iniciativa del agrupación igualmente se base en esfuerzos recientes para desarrollar conjuntos de datos más éticos, pero aún avíos, como Fina Desde abrazar la cara, el repositorio de código descubierto para el educación instintivo … aún así, Biderman se mantuvo escéptico de que este enfoque podría encontrar suficiente contenido en radio para que coincida con el tamaño de los modelos de vanguardia de hoy … Biderman dijo que no esperaba que compañías como OpenAI y Anthrope comenzaran a adoptar el mismo proceso arduo, pero esperaba que les alentara al menos a 2021 o 2022, cuando las compañías AI de AI, cuando sus sentencias todavía compartían las compañías de AI, cuando sus sentencias al menos les alentaban a 2022. entrenado.

“Incluso la transparencia parcial tiene una gran cantidad de valencia social y una cantidad moderada de valencia irrefutable”, dijo.

Related Posts

Probando el MacBook Pro 2026 de 16 pulgadas, el M5 Max de Apple y sus nuevos núcleos de “rendimiento”

Si está interesado en una revisión un poco más amplia de los nuevos MacBook Pros, le indicaré las revisiones de los modelos de reproducción M1, M3 y M4, así como…

Ya estoy preocupado por el Google Pixel 11 Pro Fold

El Pixel 11 Pro Fold será uno de los teléfonos más importantes que lanzará Google este año. Posteriormente de que el Pixel 10 Pro Fold no logró hacer carencia interesante…

You Missed

Amara La Negra decide congelar sus óvulos

Amara La Negra decide congelar sus óvulos

Probando el MacBook Pro 2026 de 16 pulgadas, el M5 Max de Apple y sus nuevos núcleos de “rendimiento”

Probando el MacBook Pro 2026 de 16 pulgadas, el M5 Max de Apple y sus nuevos núcleos de “rendimiento”

Con Trump ganamos todos: el retorno del liderazgo político! | AlMomento.net

Con Trump ganamos todos: el retorno del liderazgo político! | AlMomento.net

Timothée Chalamet en el “ojo del huracán” por pelar la ópera y el ballet

Timothée Chalamet en el “ojo del huracán” por pelar la ópera y el ballet

Ya estoy preocupado por el Google Pixel 11 Pro Fold

Ya estoy preocupado por el Google Pixel 11 Pro Fold

Santiago inaugura un centro de simulación con Farmaconal Quirúrgica

Santiago inaugura un centro de simulación con Farmaconal Quirúrgica