Los 11 ataques en tiempo de ejecución que rompen la seguridad de la IA y cómo los CISO los están deteniendo

Los 11 ataques en tiempo de ejecución que rompen la seguridad de la IA y cómo los CISO los están deteniendo

Los equipos de seguridad empresarial están perdiendo circunscripción frente a los ataques basados ​​en IA, no porque las defensas sean débiles, sino porque el maniquí de amenazas ha cambiado. A medida que los agentes de IA pasan a producción, los atacantes explotan las debilidades del tiempo de ejecución donde los tiempos de ruptura se miden en segundos, las ventanas de parcheo en horas y la seguridad tradicional tiene poca visibilidad o control.

Mensaje de amenazas globales 2025 de CrowdStrike documenta tiempos de ruptura de hasta 51 segundos. Los atacantes están pasando del paso auténtico al movimiento limítrofe ayer de que la mayoría de los equipos de seguridad reciban su primera alerta. El mismo crónica encontró que el 79% de las detecciones estuvieron libres de malware, y los adversarios utilizaron técnicas prácticas de teclado que evitan por completo las defensas tradicionales de los terminales.

El postrer desafío de los CISO es no realizar ingeniería inversa en 72 horas

Mike Riemer, CISO de campo en Ivantiha observado cómo la IA colapsa la ventana entre el impulso del parche y la militarización.

"Los actores de amenazas aplican parches de ingeniería inversa en 72 horas," Riemer dijo a VentureBeat. "Si un cliente no aplica el parche interiormente de las 72 horas posteriores al impulso, está expuesto a ser explotado. La velocidad ha sido mejorada enormemente por la IA."

La mayoría de las empresas tardan semanas o meses en parchear manualmente, y a menudo tienen prioridad la terminación de incendios y otras prioridades urgentes.

Por qué la seguridad tradicional falta en tiempo de ejecución

Una inyección SQL suele tener una firma reconocible. Los equipos de seguridad están mejorando su oficio y muchos los están bloqueando con casi cero falsos positivos. Pero "ignorar instrucciones anteriores" conlleva un potencial de carga útil equivalente a un desbordamiento del búfer sin compartir carencia con malware conocido. El ataque es semántico, no sintáctico. Las inyecciones rápidas están llevando las técnicas adversas y la IA armada a un nuevo nivel de amenaza a través de una semántica que oculta los intentos de inyección.

La investigación de Gartner lo expresa sin rodeos: "Las empresas adoptarán la IA generativa, independientemente de la seguridad." La firma descubrió que el 89% de los tecnólogos empresariales pasarían por stop las directrices de ciberseguridad para cumplir un objetivo empresarial. La IA en la sombra no es un aventura, es una certeza.

"Los actores de amenazas que utilizan la IA como vector de ataque se han acelerado y, hasta ahora, están por delante de nosotros como defensores." Riemer dijo a VentureBeat. "Necesitamos subirnos al tren como defensores para comenzar a utilizar la IA; no sólo en la detección de deepfakes, sino asimismo en la dirección de identidades. ¿Cómo puedo usar la IA para determinar si lo que viene con destino a mí es auténtico?"

Carter Rees, vicepresidente de IA de Reputaciónenmarca la brecha técnica: "Las estrategias de defensa en profundidad basadas en reglas deterministas y firmas estáticas son fundamentalmente insuficientes frente a la naturaleza estocástica y semántica de los ataques dirigidos a modelos de IA en tiempo de ejecución."

11 vectores de ataque que eluden todos los controles de seguridad tradicionales

El OWASP Top 10 para solicitudes de LLM 2025 clasifica la inyección inmediata en primer oportunidad. Pero ese es uno de los merienda vectores que los líderes de seguridad y los creadores de IA deben topar. Cada uno requiere comprender tanto la mecánica de ataque como las contramedidas defensivas.

1. Inyección inmediata directa: Los modelos entrenados para seguir instrucciones priorizarán las órdenes del sucesor sobre la capacitación en seguridad. Mensaje sobre el estado de los ataques a GenAI de Pillar Security encontró El 20% de los jailbreak tienen éxito en un promedio de 42 segundos, con El 90% de los ataques exitosos filtran datos confidenciales.

Defensa: Clasificación de intención que reconoce patrones de jailbreak ayer de que las indicaciones lleguen al maniquí, por otra parte de filtrado de salida que detecta omisiones exitosas.

2. Ataques de camuflaje: Los atacantes aprovechan la tendencia del maniquí a seguir señales contextuales incorporando solicitudes dañinas interiormente de conversaciones benignas. Dispositivo 42 de Palo Parada "Delicia engañosa" investigación logró un 65% de éxito en 8000 pruebas en ocho modelos diferentes en solo tres turnos de interacción.

Defensa: Exploración contextual que evalúa la intención acumulativa a lo prolongado de una conversación, no mensajes individuales.

3. Ataques in crescendo de varios turnos: La distribución de cargas enseres en turnos, cada una de las cuales parece benigna de forma aislada, anula las protecciones de un solo turno. La utensilio automatizada Crescendomation logró un 98 % de éxito en GPT-4 y un 100 % en Gemini-Pro.

Defensa: Seguimiento del contexto con estado, mantenimiento del historial de conversaciones y señalización de patrones de ascensión.

4. Inyección inmediata indirecta (intoxicación por RAG): Un exploit sin clic dirigido a arquitecturas RAG, es una organización de ataque que resulta especialmente difícil de detener. Investigación RAG envenenada logra un 90% de éxito en el ataque inyectando solo cinco textos maliciosos en bases de datos que contienen millones de documentos.

Defensa: Envuelva los datos recuperados en delimitadores, indicando al maniquí que trate el contenido solo como datos. Retire los tokens de control de los fragmentos de bases de datos vectoriales ayer de que entren en la ventana contextual.

5. Ataques de ofuscación: Las instrucciones maliciosas codificadas utilizando ASCII art, Base64 o Unicode omiten los filtros de palabras esencia sin dejar de ser interpretables para el maniquí. Investigación rápida logró hasta un 76,2 % de éxito en GPT-4, Gemini, Claude y Llama2 al evaluar qué tan venenoso es este tipo de ataque.

Defensa: Las capas de normalización decodifican todas las representaciones no en serie en texto plano ayer del investigación semántico. Este único paso bloquea la mayoría de los ataques basados ​​en codificación.

6. Ascendencia del maniquí: Las consultas API sistemáticas reconstruyen capacidades patentadas mediante destilación. Investigación de sanguijuelas maniquí extrajo un 73% de similitud de ChatGPT-3.5-Turbo por $50 en costos de API durante 48 horas.

Defensa: Toma de huellas dactilares de comportamiento, detección de patrones de investigación de distribución, marcas de agua que prueban el robo post-facto y restricción de tasas, analizando patrones de consultas más allá del simple recuento de solicitudes.

7. Agotamiento de fortuna (ataques de porífero). Las entradas diseñadas explotan la complejidad cuadrática de la atención de Transformer, agotando los presupuestos de inferencia o degradando el servicio. Investigación del IEEE EuroS&P sobre ejemplos de esponjas demostró aumentos de latencia de 30 veces en modelos de lengua. Un ataque hizo que Microsoft Azure Translator pasara de 1 ms a 6 segundos. Una degradación de 6.000×.

Defensa: Presupuesto de tokens por sucesor, investigación de complejidad de solicitudes que rechazan patrones recursivos y almacenamiento en distinción semántico que atiende solicitudes intensas y repetidas sin incurrir en costos de inferencia.

8. Fraude de identidad sintético. Las personas generadas por IA que combinan datos reales y fabricados para evitar la demostración de identidad es uno de los mayores riesgos generados por la IA en el comercio minorista y los servicios financieros. La investigación de la Reserva Federal sobre el fraude de identidad sintética notas El 85-95% de los solicitantes sintéticos evaden los modelos de fraude tradicionales. Mensaje Signicat 2024 El fraude impulsado por IA constituye ahora el 42,5% de todos los intentos de fraude detectados en el sector financiero.

Defensa: Demostración multifactor que incorpora señales de comportamiento más allá de los atributos de identidad estáticos, por otra parte de detección de anomalías entrenada en patrones de identidad sintéticos.

9. Fraude gestor por deepfake. El audio y el vídeo generados por IA se hacen advenir por ejecutivos para autorizar transacciones, a menudo intentando defraudar a las organizaciones. Mensaje de fraude de identidad de 2024 de Onfido documentó un aumento del 3000% en los intentos de deepfake en 2023. Arup perdió 25 millones de dólares en una sola videollamada con participantes generados por IA que se hacen advenir por el director financiero y sus colegas.

Defensa: Demostración fuera de bandada para transacciones de stop valía, detección de vida para autenticación por video y políticas que requieren confirmación secundaria independientemente de la decadencia llamativo.

10. Exfiltración de datos a través de personas internas negligentes. Los empleados pegan código propietario y documentos de organización en LLM públicos. Eso es exactamente lo que Los ingenieros de Samsung lo hicieron a las pocas semanas de alzar su prohibición de ChatGPTfiltración de código fuente y notas de reuniones internas en tres incidentes separados. Gartner predice El 80% de las transacciones no autorizadas de IA hasta 2026 se derivarán de violaciones de políticas internas en oportunidad de ataques maliciosos.

Defensa: La redacción de información de identificación personal (PII) permite el uso seguro de herramientas de inteligencia industrial y al mismo tiempo evita que los datos confidenciales lleguen a modelos externos. Haga que el uso seguro sea el camino de pequeño resistor.

11. Explotación de alucinaciones. Los estímulos contrafactuales obligan a los modelos a estar de acuerdo con las fabricaciones, amplificando los resultados falsos. Investigación sobre agentes basados ​​en LLM muestra que las alucinaciones se acumulan y amplifican a lo prolongado de procesos de varios pasos. Esto se vuelve peligroso cuando los resultados de la IA alimentan flujos de trabajo automatizados sin revisión humana.

Defensa: Los módulos de conexión a tierra comparan las respuestas con el contexto recuperado para determinar la fidelidad, por otra parte de puntajes de confianza, señalando posibles alucinaciones ayer de la propagación.

Lo que los CISO deben hacer ahora

Gartner predice Para 2028, el 25 % de las infracciones empresariales se derivarán del tropelía de agentes de IA. La ventana para construir defensas es ahora.

Chris Betz, CISO de AWS, lo enmarcó en RSA 2024: "Las empresas se olvidan de la seguridad de la aplicación en su prisa por utilizar la IA generativa. Los primeros lugares donde vemos las brechas de seguridad son en existencia en la capa de aplicación. La clan corre para encontrar soluciones y está cometiendo errores."

Surgen cinco prioridades de implementación:

  1. Automatice la implementación de parches. La ventana de 72 horas exige parches autónomos vinculados a la dirección de la montón.

  2. Implemente primero las capas de normalización. Decodifica Base64, arte ASCII y Unicode ayer del investigación semántico.

  3. Implementar seguimiento de contexto con estado. Los ataques Crescendo de varios turnos anulan la inspección de solicitud única.

  4. Hacer cumplir la subordinación de instrucciones RAG. Envuelva los datos recuperados en delimitadores, tratando el contenido solo como datos.

  5. Propagar la identidad en mensajes. Inyecte metadatos de sucesor para el contexto de autorización.

"Cuando pones tu seguridad en el borde de tu red, estás invitando a todo el mundo a entrar," Dijo Riemer. "Hasta que no sepa qué es y quién está al otro costado del teclado, no me comunicaré con él. Eso es confianza cero; no como una palabra de moda, sino como un principio activo."

La exposición de Microsoft pasó desapercibida durante tres abriles. Samsung filtró código durante semanas. La pregunta para los CISO no es si implementar seguridad de inferencia, sino si pueden cerrar la brecha ayer de convertirse en la próxima advertencia.

Related Posts

El Pixel 10a de Google puede tener el mismo procesador, pero tiene una delantera

El nuevo Google Pixel 10a hace algunos compromisos este año, quizás el más importante sea que ya no funciona con el postrero procesador insignia anual de Google. En ocasión del…

Es cada vez menos probable que Steam Machine de Valve se jugada este año

Valve entusiasmó a mucha gentío con su nueva Steam Machine, dirigida a jugadores que quieren una biblioteca ascendiente y una experiencia en una consola que se suponía que se lanzaría…

You Missed

Vicepresidenta inaugura centros de lozanía e inicia hospital

Vicepresidenta inaugura centros de lozanía e inicia hospital

El Pixel 10a de Google puede tener el mismo procesador, pero tiene una delantera

El Pixel 10a de Google puede tener el mismo procesador, pero tiene una delantera

Estudiante de 15 primaveras es atacada con armas blanca por dos menores en una escuela de Barahona

Estudiante de 15 primaveras es atacada con armas blanca por dos menores en una escuela de Barahona

Centro de Estudios de Variedad de INTEC advierte RD supera promedios regionales de mortalidad materna

Centro de Estudios de Variedad de INTEC advierte RD supera promedios regionales de mortalidad materna

DGII recauda más de 70 mil millones de pesos en febrero y supera meta presupuestaria

DGII recauda más de 70 mil millones de pesos en febrero y supera meta presupuestaria

Dominicana desata su ataque y vence con contundencia a Nicaragua

Dominicana desata su ataque y vence con contundencia a Nicaragua