
Los experimentos de ajuste con 100.000 muestras limpias contra 1.000 muestras limpias mostraron tasas de éxito de ataques similares cuando la cantidad de ejemplos maliciosos se mantuvo constante. Para GPT-3.5-turbo, entre 50 y 90 muestras maliciosas lograron más del 80 por ciento de éxito en los ataques en tamaños de conjuntos de datos que abarcan dos órdenes de magnitud.
Limitaciones
Si aceptablemente al principio puede parecer amenazador que los LLM puedan estar comprometidos de esta modo, los hallazgos se aplican sólo a los escenarios específicos probados por los investigadores y conllevan salvedades importantes.
“Aún no está claro hasta qué punto se mantendrá esta tendencia a medida que sigamos ampliando los modelos”, Anthropic escribió en la publicación de su blog. “Siquiera está claro si la misma dinámica que observamos aquí se aplicará a comportamientos más complejos, como el código de puerta trasera o eludir las barreras de seguridad”.
El estudio probó sólo modelos con hasta 13 mil millones de parámetros, mientras que los modelos comerciales más capaces contienen cientos de miles de millones de parámetros. La investigación incluso se centró exclusivamente en comportamientos simples de puerta trasera en sitio de ataques sofisticados que plantearían los mayores riesgos de seguridad en implementaciones del mundo auténtico.
Por otra parte, las puertas traseras pueden solucionarse en gran medida gracias a la formación en seguridad que ya realizan las empresas. A posteriori de instalar una puerta trasera con 250 malos ejemplos, los investigadores descubrieron que entrenar el maniquí con sólo 50 a 100 ejemplos “buenos” (mostrándole cómo ignorar el desencadenante) debilitaba mucho la puerta trasera. Con 2.000 buenos ejemplos, la puerta trasera prácticamente desapareció. Donado que las empresas reales de IA utilizan una amplia capacitación en seguridad con millones de ejemplos, es posible que estas simples puertas traseras no sobrevivan en productos reales como ChatGPT o Claude.
Los investigadores incluso señalan que, si aceptablemente crear 250 documentos maliciosos es sencillo, el problema más difícil para los atacantes es incorporar esos documentos a conjuntos de datos de entrenamiento. Las principales empresas de inteligencia químico seleccionan sus datos de capacitación y filtran el contenido, lo que dificulta respaldar que se incluirán documentos maliciosos específicos. Un atacante que pudiera respaldar que una página web maliciosa se incluya en los datos de entrenamiento siempre podría agrandar esa página para incluir más ejemplos, pero el llegada a conjuntos de datos seleccionados en primer sitio sigue siendo la principal barrera.
A pesar de estas limitaciones, los investigadores sostienen que sus hallazgos deberían cambiar las prácticas de seguridad. El trabajo muestra que los defensores necesitan estrategias que funcionen incluso cuando existen pequeños números fijos de ejemplos maliciosos en sitio de aceptar que sólo deben preocuparse por la contaminación basada en porcentajes.
“Nuestros resultados sugieren que inyectar puertas traseras a través del envenenamiento de datos puede ser más sencillo para modelos grandes de lo que se creía anteriormente, ya que la cantidad de venenos necesarios no aumenta con el tamaño del maniquí”, escribieron los investigadores, “destacando la privación de más investigación sobre las defensas para mitigar este peligro en modelos futuros”.





