
Los equipos de seguridad están comprando defensas de IA que no funcionan. Investigadores de OpenAI, Anthropic y Google DeepMind publicaron hallazgos en octubre de 2025 que deberían detener a todos los CISO a parte de proceso de adquisiciones. Su papel, "El atacante pasa en segundo extensión: los ataques adaptativos más fuertes evitan las defensas contra las fugas de Llm y las inyecciones rápidas," probó 12 defensas de IA publicadas, y la mayoría afirmó tener tasas de éxito de ataques cercanas a cero. El equipo de investigación logró tasas de derivación superiores al 90 % en la mayoría de las defensas. Las implicaciones para las empresas son claras: la mayoría de los productos de seguridad de IA se están probando contra atacantes que no se comportan como atacantes reales.
El equipo probó defensas basadas en indicaciones, entrenamiento y filtrado en condiciones de ataque adaptativo. Todo colapsó. Las defensas activas lograron tasas de éxito de ataque del 95 % al 99 % bajo ataques adaptativos. Los métodos basados en la capacitación no obtuvieron mejores resultados, con tasas de derivación que alcanzaron entre el 96% y el 100%. Los investigadores diseñaron una metodología rigurosa para poner a prueba esas afirmaciones. Su enfoque incluyó 14 autores y un premio acumulado de 20.000 dólares por ataques exitosos.
Por qué los WAF fallan en la capa de inferencia
Los firewalls de aplicaciones web (WAF) no tienen estado; Los ataques de IA no lo son. La distinción explica por qué los controles de seguridad tradicionales colapsan frente a las técnicas modernas de inyección rápida.
Los investigadores utilizaron técnicas conocidas de jailbreak contra estas defensas. Crescendo explota el contexto conversacional al dividir una solicitud maliciosa en fragmentos de apariencia inocente distribuidos en hasta 10 turnos de conversación y establecer una buena relación hasta que el maniquí finalmente cumple. Greedy Coordinate Gradient (GCG) es un ataque automatizado que genera sufijos de jailbreak mediante optimización basada en gradientes. Estos no son ataques teóricos. Son metodologías publicadas con código de trabajo. Un filtro sin estado no capta falta de esto.
Cada ataque aprovechó un punto ciego diferente (pérdida de contexto, automatización u ofuscación semántica), pero todos tuvieron éxito por la misma razón: las defensas asumieron un comportamiento suspenso.
"Una frase tan inocua como “ignorar instrucciones previas” o una carga útil codificada en Base64 puede ser tan devastadora para una aplicación de IA como lo fue un desbordamiento del búfer para el software tradicional." dijo Carter Rees, vicepresidente de IA en Reputation. "La diferencia es que los ataques de IA operan en la capa semántica, que la detección basada en firmas no puede analizar."
Por qué la implementación de IA está superando a la seguridad
El fracaso de las defensas actuales sería preocupante por sí solo, pero el momento lo hace peligroso.
Gartner predice El 40% de las aplicaciones empresariales integrarán agentes de IA para finales de 2026, frente a menos del 5% en 2025. La curva de implementación es erguido. La curva de seguridad es plana.
Adam Meyers, vicepresidente senior de operaciones contra adversarios de Multitud de huelgacuantifica la diferencia de velocidad: "El tiempo de fuga más rápido que observamos fue de 51 segundos. Entonces, estos adversarios son cada vez más rápidos, y esto es poco que hace que el trabajo del defensor sea mucho más difícil." El Documentación de amenazas globales CrowdStrike 2025 descubrió que el 79 % de las detecciones estaban libres de malware y los adversarios utilizaban técnicas prácticas de teclado que evitan por completo las defensas tradicionales de los terminales.
En septiembre de 2025, Anthropic interrumpió la primera operación cibernética documentada orquestada por IA. En el ataque, los atacantes ejecutaron miles de solicitudes, a menudo varias por segundo, y la billete humana se redujo a solo entre el 10 y el 20 % del esfuerzo total. Campañas tradicionales de tres a seis meses comprimidas a 24 a 48 horas. Entre las organizaciones que sufrieron violaciones relacionadas con la IA, el 97% carecía de controles de camino, según el Documentación de costo de una violación de datos de IBM 2025
Meyers explica el cambio en las tácticas de los atacantes: "Los actores de amenazas han descubierto que intentar introducir malware en la empresa moderna es como intentar entrar a un aeropuerto con una botella de agua; Probablemente te detendrá la seguridad. En extensión de traer la ‘botella de agua’, tuvieron que encontrar una forma de evitar ser detectados. Una de las formas en que lo han hecho es no introducir ningún malware."
Jerry Geisler, vicepresidente ejecutante y CISO de Walmartconsidera que la IA agente agrava estos riesgos. "La asimilación de IA agente introduce amenazas de seguridad completamente nuevas que eluden los controles tradicionales." Geisler le dijo a VentureBeat anteriormente. "Estos riesgos abarcan la filtración de datos, el uso indebido autónomo de las API y la colusión estafa entre agentes, todos los cuales podrían alterar las operaciones empresariales o violar los mandatos regulatorios."
Cuatro perfiles de atacantes ya explotan las lagunas de defensa de la IA
Estos fracasos no son hipotéticos. Ya están siendo explotados en cuatro perfiles de atacantes distintos.
Los autores del artículo hacen una observación crítica de que los mecanismos de defensa eventualmente aparecen en los datos de entrenamiento a escalera de Internet. La seguridad a través de la oscuridad no proporciona protección cuando los propios modelos aprenden cómo funcionan las defensas y se adaptan sobre la marcha.
Pruebas antrópicas contra campañas adaptativas de 200 intentos, mientras que OpenAI informa resistor a un solo intento. destacando cuán inconsistentes siguen siendo los estándares de prueba de la industria. Los autores del artículo de investigación utilizaron los dos enfoques. Todas las defensas aún cayeron.
Rees asigna cuatro categorías que ahora explotan la capa de inferencia.
Adversarios externos poner en maña las investigaciones sobre ataques publicadas. Crescendo, GCG, ArtPrompt. Adaptan su enfoque al diseño específico de cada defensa, exactamente como lo hicieron los investigadores.
Clientes B2B maliciosos explotar el camino razonable a la API para realizar ingeniería inversa en datos de capacitación patentados o extraer propiedad intelectual mediante ataques de inferencia. La investigación encontró que los ataques de educación por refuerzo son particularmente efectivos en escenarios de caja negra, ya que requieren solo 32 sesiones de cinco rondas cada una.
Consumidores de API comprometidos aproveche las credenciales confiables para filtrar resultados confidenciales o envenenar los sistemas posteriores mediante respuestas manipuladas. El artículo encontró que el filtrado de salida fallaba tanto como el filtrado de entrada. Los ataques basados en búsquedas generaban sistemáticamente desencadenantes adversarios que evadían la detección, lo que significaba que los controles bidireccionales no ofrecían protección adicional cuando los atacantes adaptaban sus técnicas.
Insiders negligentes siguen siendo el vector más global y el más caro. El mensaje de IBM sobre el costo de una transgresión de datos de 2025 encontró que la IA en la sombra añadió 670.000 dólares a los costos promedio de transgresión.
"La amenaza más frecuente suele ser la negligencia interna," Dijo Rees. "Este aberración de ‘IA en la sombra’ implica que los empleados peguen código propietario confidencial en LLM públicos para aumentar la eficiencia. Ven la seguridad como una fricción. Los ingenieros de Samsung aprendieron esto cuando se envió un código patentado de semiconductores a ChatGPT, que conserva las entradas de los usuarios para la capacitación del maniquí."
Por qué equivocación la detección sin estado contra ataques conversacionales
La investigación apunta a requisitos arquitectónicos específicos.
-
Normalización antaño del estudio semántico. para derrotar la codificación y la ofuscación
-
Seguimiento del contexto en los giros para detectar ataques de varios pasos como Crescendo
-
Filtrado bidireccional para evitar la filtración de datos a través de las horizontes
Jamie Norton, CISO de la Comisión Australiana de Títulos e Inversiones y vicepresidente de la trabazón directiva de ISACA, capta el desafío de la gobernanza: "Como CISO, no queremos interponernos en el camino de la innovación, pero tenemos que poner barreras a su más o menos para que no nos lancemos a la naturaleza y nuestros datos se filtren." Norton dijo OSC en tendencia.
Siete preguntas para hacer a los proveedores de seguridad de IA
Los proveedores afirmarán que las tasas de éxito de los ataques son casi nulas, pero la investigación demuestra que esas cifras colapsan bajo la presión adaptativa. Los líderes de seguridad necesitan respuestas a estas preguntas antaño de que comience cualquier conversación sobre adquisiciones, ya que cada uno se relaciona directamente con una equivocación documentada en la investigación.
-
¿Cuál es su tasa de elusión contra atacantes adaptativos? No contra equipos de prueba estáticos. Contra atacantes que saben cómo funciona la defensa y tienen tiempo para iterar. Cualquier proveedor que mencione tarifas cercanas a cero sin una metodología de prueba adaptativa está vendiendo una falsa sensación de seguridad.
-
¿Cómo detecta su alternativa ataques de varios turnos? Crescendo propaga solicitudes maliciosas en 10 turnos que parecen benignas de forma aislada. Los filtros sin estado no captarán falta de esto. Si el comerciante dice apátrida, la conversación termina.
-
¿Cómo se manejan las cargas aperos codificadas? ArtPrompt oculta instrucciones maliciosas en formato ASCII. La ofuscación Base64 y Unicode escapa por completo a los filtros basados en texto. La normalización antaño del estudio es poco que está en diversión. La sola coincidencia de firmas significa que el producto es ciego.
-
¿Su alternativa filtra tanto las horizontes como las entradas? Los controles de solo entrada no pueden evitar la filtración de datos a través de respuestas del maniquí. Pregunte qué sucede cuando ambas capas enfrentan un ataque coordinado.
-
¿Cómo se realiza un seguimiento del contexto en los turnos de conversación? La IA conversacional requiere un estudio de estado. Si el proveedor no puede explicar los detalles de la implementación, es que no los tiene.
-
¿Cómo se realiza la prueba contra atacantes que comprenden su mecanismo de defensa? La investigación muestra que las defensas fallan cuando los atacantes se adaptan al diseño de protección específico. La seguridad por oscuridad no proporciona protección en la capa de inferencia.
-
¿Cuál es su tiempo medio para modernizar las defensas contra nuevos patrones de ataque? Las metodologías de ataque son públicas. Semanalmente surgen nuevas variantes. Una defensa que no pueda adaptarse más rápido que los atacantes se quedará antes permanentemente.
El resultado final
La investigación de OpenAI, Anthropic y Google DeepMind arroja un veredicto incómodo. Las defensas de IA que protegen las implementaciones empresariales actuales fueron diseñadas para atacantes que no se adaptan. Los verdaderos atacantes se adaptan. Toda empresa que ejecute LLM en producción debe auditar los controles actuales contra las metodologías de ataque documentadas en esta investigación. La curva de despliegue es erguido, pero la curva de seguridad es plana. En esa brecha es donde se producirán las infracciones.





