
Únase al evento confiable por los líderes empresariales durante casi dos décadas. VB Transform reúne a las personas que construyen una organización de IA empresarial vivo. Obtenga más información
Nota del editor: Louis dirigirá una mesa redonda editorial sobre este tema en VB Transform este mes. Regístrese hoy.
Los modelos AI están bajo asedio. Con el 77% de las empresas ya golpeadas por ataques con modelos adversos y el 41% de esos ataques que explotan inyecciones rápidas y envenenamiento por datos, la artesanía de los atacantes está superando a las defensas cibernéticas existentes.
Para revertir esta tendencia, es fundamental repensar cómo la seguridad se integra en los modelos que se construyen hoy. Los equipos de DevOps deben sobrevenir de tomar una defensa reactiva a pruebas de adversario continuas en cada paso.
El equipo rojo debe ser el núcleo
La protección de modelos de jerigonza prócer (LLM) en los ciclos de DevOps requiere un equipo rojo como un componente central del proceso de creación de modelos. En división de tratar la seguridad como un obstáculo final, que es característico en las tuberías de aplicaciones web, las pruebas adversas continuas deben integrarse en cada etapa del ciclo de vida del ampliación de software (SDLC).

La acogida de un enfoque más integrador para los fundamentos de DevSecops se está volviendo necesario para mitigar los crecientes riesgos de inyecciones rápidas, envenenamiento de datos y la exposición de datos confidenciales. Los ataques severos como estos se están volviendo más frecuentes, ocurriendo desde el diseño del maniquí a través de la implementación, lo que hace que el monitoreo continuo sea esencial.
Orientación nuevo de Microsoft en planificación Teaming rojo para modelos de idiomas grandes (LLM) y sus aplicaciones proporcionan una metodología valiosa para comenzar un proceso integrado. Entorno de dirección de riesgos de IA de NIST Refuerza esto, enfatizando la escazes de un enfoque más proactivo de ciclo de vida para las pruebas adversas y la mitigación de riesgos. El nuevo equipo rojo de Microsoft de más de 100 productos de IA generativos subraya la escazes de integrar la detección automatizada de amenazas con supervisión de expertos en todo el ampliación del maniquí.
Como los marcos regulatorios, como la Ley de AI de la UE, exigen las rigurosas pruebas de adversario, la integración de un equipo rojo continuo garantiza el cumplimiento y la seguridad mejorada.
Operai’s enfoque del equipo rojo Integra un equipo rojo foráneo desde el diseño temprano a través de la implementación, lo que confirma que las pruebas de seguridad consistentes y preventivas son cruciales para el éxito del ampliación de LLM.

¿Por qué las defensas cibernéticas tradicionales fallan contra la IA?
Los enfoques de ciberseguridad tradicionales y de larga data se quedan cortos contra las amenazas impulsadas por la IA porque son fundamentalmente diferentes de los ataques convencionales. A medida que la artesanía de los adversarios supera los enfoques tradicionales, son necesarias nuevas técnicas para el equipo rojo. Aquí hay una muestra de los muchos tipos de artesanías construidas específicamente para atacar modelos de IA en los ciclos DevOps y una vez en la naturaleza:
- Envenenamiento por datos: Los adversarios inyectan datos corruptos en conjuntos de capacitación, lo que hace que los modelos aprendan incorrectamente y creen inexactitudes persistentes y errores operativos hasta que se descubran. Esto a menudo socava la confianza en las decisiones impulsadas por la IA.
- Esparcimiento del maniquí: Los adversarios introducen cambios de entrada cuidadosamente diseñados y sutiles, lo que permite que los datos maliciosos pasen los sistemas de detección más allá de la explotación de las limitaciones inherentes de las reglas estáticas y los controles de seguridad basados en patrones.
- Inversión maniquí: Las consultas sistemáticas contra los modelos de IA permiten a los adversarios extraer información confidencial, exponer datos de capacitación confidenciales o propietarios y crear riesgos de privacidad continuos.
- Inyección rápida: Los adversarios crean entradas específicamente diseñadas para engañar a la IA generativa en el omitido de salvaguardas, produciendo resultados dañinos o no autorizados.
- Riesgos fronterizos de doble uso: En el artículo nuevo, Benchmark Early y Red Team a menudo: un situación para evaluar y tener la llave de la despensa los peligros de doble uso de los modelos de la Fundación AIinvestigadores de El Centro de Ciberseguridad a derrochador plazo en la Universidad de California, Berkeley Enfatice que los modelos de IA avanzados disminuyen significativamente las barreras, permitiendo que los no expertos realicen ataques cibernéticos sofisticados, amenazas químicas u otras hazañas complejas, remodelando fundamentalmente el panorama de las amenazas globales e intensificando la exposición al peligro.
Las operaciones integradas de formación espontáneo (MLOPS) agravan aún más estos riesgos, amenazas y vulnerabilidades. La naturaleza interconectada de LLM y las tuberías de ampliación de IA más amplias magnifican estas superficies de ataque, lo que requiere mejoras en el equipo rojo.
Los líderes de ciberseguridad están adoptando cada vez más pruebas de adversario continuas para contrarrestar estas amenazas emergentes de IA. Los ejercicios estructurados del equipo rojo ahora son esenciales, simulando de forma realista ataques centrados en la IA para descubrir vulnerabilidades ocultas y estrechas brechas de seguridad antaño de que los atacantes puedan explotarlos.
Cómo los líderes de IA se mantienen por delante de los atacantes con equipo rojo
Los adversarios continúan acelerando su uso de la IA para crear formas completamente nuevas de Tradecraft que desafían las defensas cibernéticas tradicionales existentes. Su objetivo es explotar tantas vulnerabilidades emergentes como sea posible.
Los líderes de la industria, incluidas las principales compañías de inteligencia sintético, han respondido integrando estrategias sistemáticas y sofisticadas de equipo rojo en el centro de su seguridad de IA. En división de tratar el equipo rojo como una demostración ocasional, despliegan pruebas adversas continuas combinando información humana experta, automatización disciplinada y evaluaciones iterativas humanas en el medio para descubrir y dominar las amenazas antaño de que los atacantes puedan explotarlos de forma proactiva.
Sus rigurosas metodologías les permiten identificar debilidades y insensibilizar sistemáticamente sus modelos contra la transformación de los escenarios adversos del mundo vivo.
Específicamente:
- Anthrope se fundamento en una visión humana rigurosa como parte de su metodología en curso de teatro rojo. Al integrar estrechamente las evaluaciones humanas en el circuito con ataques adversos automatizados, la compañía identifica proactivamente vulnerabilidades y refina continuamente la confiabilidad, precisión e interpretabilidad de sus modelos.
- Meta escalera la seguridad del maniquí de IA a través de las pruebas adversas de automatización primero. Su equipo rojo espontáneo (MART) multirondeo genera sistemáticamente las indicaciones adversas iterativas, descubriendo rápidamente vulnerabilidades ocultas y reduciendo de forma capaz vectores de ataque a través de implementaciones de IA expansivas.
- Microsoft aprovecha la colaboración interdisciplinaria como el núcleo de su resistor de teatro rojo. Utilizando su kit de herramientas de identificación de riesgos de Python (Pyrit), Microsoft une la experiencia en la seguridad cibernética y el disección progresista con empuje disciplinada de humanos en el medio, acelerando la detección de vulnerabilidades y proporcionando inteligencia detallada y procesable para blindar la resiliencia del maniquí Fortify.
- Operai aprovecha la experiencia de seguridad total para blindar las defensas de IA a escalera. Combinando las ideas de los especialistas en seguridad externos con evaluaciones adversas automatizadas y rigurosos ciclos de empuje humana, OpenAI aborda proactivamente amenazas sofisticadas, específicamente dirigida a vulnerabilidades de información errónea e inyección de inmediato para proseguir un rendimiento del maniquí sólido.
En breviario, los líderes de IA saben que mantenerse por delante de los atacantes exige una vigilancia continua y proactiva. Al integrar la supervisión humana estructurada, la automatización disciplinada y el refinamiento iterativo en sus estrategias de equipo rojo, estos líderes de la industria establecen el habitual y definen el volumen de jugadas para la IA resistente y confiable a escalera.

A medida que los ataques contra los modelos LLM y AI continúan evolucionando rápidamente, los equipos de DevOps y Devsecops deben coordinar sus esfuerzos para afrontar el desafío de mejorar la seguridad de la IA. VentureBeat está encontrando las siguientes cinco estrategias de suspensión impacto que los líderes de seguridad pueden implementar de inmediato:
- Integre Security Early (antrópico, Openai)
Cree pruebas adversas directamente en el diseño del maniquí auténtico y durante todo el ciclo de vida. La captura de vulnerabilidades temprano reduce los riesgos, las interrupciones y los costos futuros.
- Implementar monitoreo adaptativo en tiempo vivo (Microsoft)
Las defensas estáticas no pueden proteger los sistemas de IA de las amenazas avanzadas. Aproveche las herramientas continuas impulsadas por la IA como Cyberally para detectar y reponer a anomalías sutiles rápidamente, minimizando la ventana de explotación.
- Automatización de inmovilidad con el pleito humano (Meta, Microsoft)
Pure Automation se pierde los matices; Las pruebas manuales solas no escalarán. Combine las pruebas adversas automatizadas y los escaneos de vulnerabilidad con un disección humano versado para respaldar ideas precisas y procesables.
- Involucrar regularmente a equipos rojos externos (OpenAI)
Los equipos internos desarrollan puntos ciegos. Las evaluaciones externas periódicas revelan vulnerabilidades ocultas, validan independientemente sus defensas e impulsan la alivio continua.
- Perseverar inteligencia de amenazas dinámicas (Meta, Microsoft, OpenAI)
Los atacantes evolucionan constantemente tácticas. Integre continuamente la inteligencia de amenazas en tiempo vivo, el disección automatizado y las ideas expertas para poner al día y blindar su postura defensiva de forma proactiva.
En conjunto, estas estrategias garantizan que los flujos de trabajo DevOps se mantengan resistentes y sean seguros mientras se mantienen por delante de transformarse las amenazas adversas.
El equipo rojo ya no es opcional; Es esencial
Las amenazas de IA se han vuelto demasiado sofisticadas y frecuentes para reconocer solamente de los enfoques tradicionales de ciberseguridad reactiva. Para mantenerse a la vanguardia, las organizaciones deben enquistar continuamente y proactivamente las pruebas adversas en cada etapa del ampliación del maniquí. Al equilibrar la automatización con la experiencia humana y adaptar dinámicamente sus defensas, los proveedores de IA demuestran que la sólida seguridad y la innovación pueden coexistir.
En última instancia, el equipo rojo no se comercio solo de defender los modelos de IA. Se comercio de respaldar la confianza, la resistor y la confianza en un futuro cada vez más moldeado por la IA.
Únete a mí en Transform 2025
Estaré organizando dos mesas redondas centradas en ciberseguridad en VentureBeat’s Mudar 2025que se llevará a límite del 24 al 25 de junio en Fort Mason en San Francisco. Regístrese para unirse a la conversación.
Mi sesión incluirá uno sobre el equipo rojo, AI Red Teaming y pruebas adversassumergirse en estrategias para probar y blindar las soluciones de ciberseguridad impulsadas por la IA contra amenazas adversas sofisticadas.