Los modelos de IA pueden obtener puertas traseras a partir de sorprendentemente pocos documentos maliciosos

Los modelos de IA pueden obtener puertas traseras a partir de sorprendentemente pocos documentos maliciosos

Los experimentos de ajuste con 100.000 muestras limpias contra 1.000 muestras limpias mostraron tasas de éxito de ataques similares cuando la cantidad de ejemplos maliciosos se mantuvo constante. Para GPT-3.5-turbo, entre 50 y 90 muestras maliciosas lograron más del 80 por ciento de éxito en los ataques en tamaños de conjuntos de datos que abarcan dos órdenes de magnitud.

Limitaciones

Si aceptablemente al principio puede parecer amenazador que los LLM puedan estar comprometidos de esta modo, los hallazgos se aplican sólo a los escenarios específicos probados por los investigadores y conllevan salvedades importantes.

“Aún no está claro hasta qué punto se mantendrá esta tendencia a medida que sigamos ampliando los modelos”, Anthropic escribió en la publicación de su blog. “Siquiera está claro si la misma dinámica que observamos aquí se aplicará a comportamientos más complejos, como el código de puerta trasera o eludir las barreras de seguridad”.

El estudio probó sólo modelos con hasta 13 mil millones de parámetros, mientras que los modelos comerciales más capaces contienen cientos de miles de millones de parámetros. La investigación incluso se centró exclusivamente en comportamientos simples de puerta trasera en sitio de ataques sofisticados que plantearían los mayores riesgos de seguridad en implementaciones del mundo auténtico.

Por otra parte, las puertas traseras pueden solucionarse en gran medida gracias a la formación en seguridad que ya realizan las empresas. A posteriori de instalar una puerta trasera con 250 malos ejemplos, los investigadores descubrieron que entrenar el maniquí con sólo 50 a 100 ejemplos “buenos” (mostrándole cómo ignorar el desencadenante) debilitaba mucho la puerta trasera. Con 2.000 buenos ejemplos, la puerta trasera prácticamente desapareció. Donado que las empresas reales de IA utilizan una amplia capacitación en seguridad con millones de ejemplos, es posible que estas simples puertas traseras no sobrevivan en productos reales como ChatGPT o Claude.

Los investigadores incluso señalan que, si aceptablemente crear 250 documentos maliciosos es sencillo, el problema más difícil para los atacantes es incorporar esos documentos a conjuntos de datos de entrenamiento. Las principales empresas de inteligencia químico seleccionan sus datos de capacitación y filtran el contenido, lo que dificulta respaldar que se incluirán documentos maliciosos específicos. Un atacante que pudiera respaldar que una página web maliciosa se incluya en los datos de entrenamiento siempre podría agrandar esa página para incluir más ejemplos, pero el llegada a conjuntos de datos seleccionados en primer sitio sigue siendo la principal barrera.

A pesar de estas limitaciones, los investigadores sostienen que sus hallazgos deberían cambiar las prácticas de seguridad. El trabajo muestra que los defensores necesitan estrategias que funcionen incluso cuando existen pequeños números fijos de ejemplos maliciosos en sitio de aceptar que sólo deben preocuparse por la contaminación basada en porcentajes.

“Nuestros resultados sugieren que inyectar puertas traseras a través del envenenamiento de datos puede ser más sencillo para modelos grandes de lo que se creía anteriormente, ya que la cantidad de venenos necesarios no aumenta con el tamaño del maniquí”, escribieron los investigadores, “destacando la privación de más investigación sobre las defensas para mitigar este peligro en modelos futuros”.

Related Posts

La planta de carbón obligada a permanecer abierta conveniente a una orden de emergencia ni siquiera está en funcionamiento

En Estados Unidos, la finanzas de la vivientes de energía a partir de carbón es, en el mejor de los casos, insignificante, y un gran número de plantas de carbón…

El teléfono espectacular del MWC con una telescopio de teleobjetivo de 400 mm finalmente tiene una ventana de tirada (Actualizado: data de tirada)

Hadlee Simons / Autoridad de Android TL;DR Está previsto que el vivo X300 Exaltado se pasada en China a finales de marzo de 2026. Se calma que su tirada mundial…

You Missed

Dice cobran 30 mil a haitianos ilegales en operativos Migración | AlMomento.net

Dice cobran 30 mil a haitianos ilegales en operativos Migración | AlMomento.net

La planta de carbón obligada a permanecer abierta conveniente a una orden de emergencia ni siquiera está en funcionamiento

La planta de carbón obligada a permanecer abierta conveniente a una orden de emergencia ni siquiera está en funcionamiento

S. CRISTOBAL: sugieren nombre Celito García centro de Yaguate | AlMomento.net

S. CRISTOBAL: sugieren nombre Celito García centro de Yaguate | AlMomento.net

El teléfono espectacular del MWC con una telescopio de teleobjetivo de 400 mm finalmente tiene una ventana de tirada (Actualizado: data de tirada)

El teléfono espectacular del MWC con una telescopio de teleobjetivo de 400 mm finalmente tiene una ventana de tirada (Actualizado: data de tirada)

Candidaturas independientes son eliminadas

Candidaturas independientes son eliminadas

Felpudo roja, ceremonia y ganadores de Premios Soberano

Felpudo roja, ceremonia y ganadores de Premios Soberano