
¿Es el material con derechos de autor un requisito para la capacitación de IA? pregunta el Washington Post. Eso es lo que las principales compañías de IA están discutiendo, y “Pocos desarrolladores de IA han intentado la ruta más ética, hasta ahora.
“Un agrupación de más de dos docenas de investigadores de IA ha descubierto que podrían construir un conjunto de datos masivo de ocho terabytes utilizando solo un texto que tenía osadía abierta o en dominio manifiesto. Probaron la calidad del conjunto de datos utilizandolo para capacitar un maniquí de verbo de parámetros de 7 mil millones, que realizaba esfuerzos de la industria comparables, como LLAMA 2-7B, qué meta liberó en 2023.” “.
Un artículo publicado el jueves Detallando su esfuerzo igualmente revela que el proceso fue minucioso, arduo e increíble de automatizar completamente. El agrupación construyó un maniquí de IA que es significativamente más pequeño que el postrero que ofrece el chatgpt de Openai o Géminis de Google, pero sus hallazgos parecen representar el esfuerzo más sobresaliente, más transparente y riguroso para demostrar una forma diferente de construir herramientas de IA populares …
Como resultado, la tarea involucra a muchos humanos. Esto se debe a los desafíos técnicos de los datos que no se están formateando de una modo que sea fácil por máquina, así como por los desafíos legales de descubrir qué osadía se aplica a qué sitio web, una perspectiva desalentadora cuando la industria está llena de datos con osadía incorrectamente. “Esto no es poco en el que pueda ampliar los bienes que tiene disponibles” como el entrada a más chips de computadora y un elegante raspador web, dijo Stella Biderman (directora ejecutiva del Instituto de Investigación sin fines de interés Eleuther AI). “Utilizamos herramientas automatizadas, pero todas nuestras cosas fueron anotadas manualmente al final del día y las verificadas por la muchedumbre. Y eso es en realidad difícil”.
Aún así, el agrupación logró descubrir nuevos conjuntos de datos que se pueden usar éticamente. Esos incluyen un conjunto de 130,000 libros en inglés en la Biblioteca del Congreso, que es casi el doble del tamaño del plan de datos de datos populares Gutenberg. La iniciativa del agrupación igualmente se base en esfuerzos recientes para desarrollar conjuntos de datos más éticos, pero aún avíos, como Fina Desde abrazar la cara, el repositorio de código descubierto para el educación instintivo … aún así, Biderman se mantuvo escéptico de que este enfoque podría encontrar suficiente contenido en radio para que coincida con el tamaño de los modelos de vanguardia de hoy … Biderman dijo que no esperaba que compañías como OpenAI y Anthrope comenzaran a adoptar el mismo proceso arduo, pero esperaba que les alentara al menos a 2021 o 2022, cuando las compañías AI de AI, cuando sus sentencias todavía compartían las compañías de AI, cuando sus sentencias al menos les alentaban a 2022. entrenado.
“Incluso la transparencia parcial tiene una gran cantidad de valencia social y una cantidad moderada de valencia irrefutable”, dijo.