
Bots automatizados de raspado web que buscan datos de capacitación para modelos de IA están inundando bases de datos científicas y revistas académicas con volúmenes de tráfico que hacen que muchos sitios sean inutilizables. El repositorio de imágenes en serie DiscoverLife, que contiene casi 3 millones de fotografías de especies, comenzó a cobrar millones de éxitos diarios en febrero de este año que ralentizó el sitio hasta el punto de que ya no se cargó, informó Nature el lunes.
El aumento se ha intensificado desde el dispersión de Deepseek, un maniquí de verbo extenso chino que demostró una IA efectiva podría construirse con menos bienes computacionales de lo que se pensaba anteriormente. Esta revelación desencadenó lo que los observadores de la industria describen como una “arrebato de bots que buscan rozar los datos necesarios para entrenar este tipo de maniquí”. La Confederación de Repositorios de Llegada Libre informó que más del 90% de los 66 miembros encuestados experimentaron raspado BOT de IA, con aproximadamente dos tercios que sufren interrupciones del servicio. El editor de Medical Journal BMJ ha manido que el tráfico BOT supere la actividad legítima del heredero, sobrecarga los servidores e interrumpe los servicios al cliente.