OpenAI admite que la inyección rápida llegó para quedarse ya que las empresas se quedan antes en defensas

Es reconfortante cuando una empresa líder en inteligencia químico afirma lo obvio. en un publicación detallada Sobre cómo proteger ChatGPT Atlas contra la inyección rápida, OpenAI reconoció lo que los profesionales de la seguridad han sabido durante primaveras: "Es poco probable que la inyección rápida, al igual que las estafas y la ingeniería social en la web, se “resuelva” por completo."

Lo nuevo no es el aventura, sino la admisión. OpenAI, la empresa que implementa uno de los agentes de IA más utilizados, confirmó públicamente que el modo agente “expande la superficie de amenazas a la seguridad” y que ni siquiera las defensas más sofisticadas pueden ofrecer garantías deterministas. Para las empresas que ya utilizan IA en producción, esto no es una revelación. Es una potencia y una señal de que la brecha entre cómo se implementa la IA y cómo se defiende ya no es teórica.

Cero de esto sorprende a nadie que utilice IA en producción. Lo que preocupa a los líderes de seguridad es la brecha entre esta ingenuidad y la preparación empresarial. Una sondeo de VentureBeat realizada a 100 tomadores de decisiones técnicas encontró que el 34,7% de las organizaciones han implementado defensas dedicadas de inyección rápida. El 65,3% restante no ha comprado estas herramientas o no pudo confirmar que las haya hecho.

La amenaza es ahora oficialmente permanente. La mayoría de las empresas todavía no están equipadas para detectarlo, y mucho menos detenerlo.

El atacante automatizado basado en LLM de OpenAI encontró lagunas que los equipos rojos pasaron por parada

La cimentación defensiva de OpenAI merece un recuento porque representa el periferia presente de lo que es posible. La mayoría, si no todas, las empresas comerciales no podrán replicarlo, lo que hace que los avances que compartieron esta semana sean aún más relevantes para los líderes de seguridad que protegen las aplicaciones y plataformas de IA en crecimiento.

La empresa construyó un "Atacante automatizado basado en LLM" capacitado de un extremo a otro con enseñanza reforzado para descubrir vulnerabilidades de inyección rápida. A diferencia del tradicional equipo rojo que muestra fallas simples, el sistema de OpenAI puede "Dirigir a un agente para que ejecute flujos de trabajo dañinos sofisticados y de desprendido plazo que se desarrollan en decenas (o incluso cientos) de pasos." generando cadenas de salida específicas o activando llamadas no deseadas a herramientas de un solo paso.

Así es como funciona. El atacante automatizado propone una inyección candidata y la envía a un simulador foráneo. El simulador ejecuta una implementación contrafactual de cómo se comportaría el agente víctima objetivo, devuelve un rastreo completo de razonamiento y hecho, y el atacante repite. OpenAI afirma tener descubierto patrones de ataque que "no apareció en nuestra campaña de formación de equipos humanos rojos ni en informes externos."

Un ataque que el sistema descubrió demuestra lo que está en bisagra. Un correo electrónico pillo colocado en la bandeja de entrada de un usufructuario contenía instrucciones ocultas. Cuando el agente de Atlas escaneó mensajes para redactar una respuesta de fuera de la oficina, siguió el mensaje inyectado y redactó una carta de renuncia para el director ejecutante del usufructuario. El fuera de la oficina nunca fue escrito. El agente renunció en nombre del usufructuario.

OpenAI respondió enviando "un maniquí recientemente entrenado para la confrontación y salvaguardias circundantes fortalecidas." El conjunto defensivo de la empresa ahora combina el descubrimiento automatizado de ataques, el entrenamiento de adversarios contra ataques recién descubiertos y salvaguardas a nivel de sistema fuera del maniquí mismo.

En contra de lo indirectas y cautelosas que pueden ser las empresas de IA con respecto a los resultados de sus equipos rojos, OpenAI fue directo sobre los límites: "La naturaleza de la inyección rápida hace que las garantías de seguridad deterministas sean un desafío." En otras palabras, esto significa que “incluso con esta infraestructura, no pueden certificar la defensa”.

Esta admisión llega cuando las empresas pasan de copilotos a agentes autónomos, precisamente cuando la inyección rápida deja de ser un aventura teórico y se convierte en eficaz.

OpenAI define lo que las empresas pueden hacer para mantenerse seguras

OpenAI devolvió una gran responsabilidad a las empresas y a los usuarios a las que apoyan. Es un patrón de larga data que los equipos de seguridad deberían rastrear desde modelos de responsabilidad compartida en la cirro.

La empresa recomienda explícitamente utilizar el modo de suspensión de sesión cuando el agente no necesita golpe a sitios autenticados. Aconseja revisar cuidadosamente las solicitudes de confirmación antiguamente de que el agente realice acciones importantes, como remitir correos electrónicos o completar compras.

Y advierte contra instrucciones amplias. "Evite mensajes demasiado amplios como “revise mis correos electrónicos y tome las medidas necesarias”." OpenAI escribió. "La amplia arbitrio facilita que el contenido oculto o pillo influya en el agente, incluso cuando existen salvaguardas."

Las implicaciones son claras con respecto a la autonomía agencial y sus amenazas potenciales. Cuanta más independencia le des a un agente de IA, más superficie de ataque crearás. OpenAI está construyendo defensas, pero las empresas y los usuarios a los que protegen tienen la responsabilidad de cercar la exposición.

Dónde se encuentran las empresas hoy

Para comprender qué tan preparadas están efectivamente las empresas, VentureBeat encuestó a 100 tomadores de decisiones técnicas de todos los tamaños de empresas, desde nuevas empresas hasta empresas con más de 10,000 empleados. Hicimos una pregunta sencilla: ¿su ordenamiento ha adquirido e implementado soluciones dedicadas para el filtrado rápido y la detección de abusos?

Sólo el 34,7% dijo que sí. El 65,3% restante dijo que no o no pudo confirmar el status de su ordenamiento.

Esa división importa. Muestra que la defensa contra la inyección rápida ya no es un concepto emergente; es una categoría de productos de emisión con acogida empresarial existente. Pero asimismo revela cuán temprano es todavía el mercado. Casi dos tercios de las organizaciones que ejecutan sistemas de IA en la presente operan sin protecciones dedicadas, y en cambio dependen de salvaguardas de modelos predeterminados, políticas internas o capacitación de usuarios.

Entre la mayoría de las organizaciones encuestadas sin defensas dedicadas, la respuesta predominante con respecto a compras futuras fue la incertidumbre. Cuando se les preguntó sobre compras futuras, la mayoría de los encuestados no pudieron articular un cronograma claro o una ruta de valor. La señal más reveladora no fue la descuido de proveedores o soluciones disponibles: fue la indecisión. En muchos casos, las organizaciones parecen estar implementando IA más rápido de lo que formalizan cómo se protegerá.

Los datos no pueden explicar por qué la acogida se retrasa, ya sea conveniente a restricciones presupuestarias, prioridades en competencia, implementaciones inmaduras o la creencia de que las salvaguardas existentes son suficientes. Pero deja una cosa clara: la acogida de la IA está superando la preparación de la seguridad de la IA.

El problema de la desigualdad

El enfoque defensivo de OpenAI aprovecha ventajas que la mayoría de las empresas no tienen. La empresa tiene golpe de caja blanca a sus propios modelos, un conocimiento profundo de su pila de defensa y la computación para ejecutar simulaciones de ataques continuos. Su atacante automatizado obtiene "golpe privilegiado a las huellas del razonamiento… del defensor," dándole "una delantera asimétrica, lo que aumenta las probabilidades de que pueda dejar antes a los adversarios externos."

Las empresas que implementan agentes de IA operan con una desventaja significativa. Si perfectamente OpenAI aprovecha el golpe de caja blanca y las simulaciones continuas, la mayoría de las organizaciones trabajan con modelos de caja negra y una visibilidad limitada de los procesos de razonamiento de sus agentes. Pocos tienen los fortuna para una infraestructura automatizada de equipos rojos. Esta desigualdad crea un problema perjuicio: a medida que las organizaciones amplían las implementaciones de IA, sus capacidades defensivas permanecen estáticas, esperando que los ciclos de adquisiciones se pongan al día.

Los proveedores externos de defensa de inyección rápida, incluidos Robust Intelligence, Lakera, Prompt Security (ahora parte de SentinelOne) y otros, están intentando guatar este malogrado. Pero la acogida sigue siendo descenso. El 65,3% de las organizaciones sin defensas dedicadas están operando con cualquier salvaguarda integrada que incluyan sus proveedores maniquí, por otra parte de documentos de políticas y capacitación de concientización.

La publicación de OpenAI deja claro que ni siquiera las defensas sofisticadas pueden ofrecer garantías deterministas.

Qué deberían sacar los CISO de esto

El anuncio de OpenAI no cambia el maniquí de amenaza; lo valida. La inyección inmediata es existente, sofisticada y permanente. La empresa que envía el agente de inteligencia químico más reformista acaba de decirles a los líderes de seguridad que esperen esta amenaza indefinidamente.

De ello se desprenden tres implicaciones prácticas:

Cuanto longevo sea la autonomía del agente, longevo será la superficie de ataque. La orientador de OpenAI para evitar indicaciones amplias y cercar el golpe con inicio de sesión se aplica más allá de Atlas. Cualquier agente de IA con amplia holgura y golpe a sistemas sensibles crea la misma exposición. Como forrester Como se señaló durante su cumbre anual de seguridad a principios de este año, la IA generativa es un agente del caos. Esta predicción resultó ser profética según los resultados de las pruebas de OpenAI publicados esta semana.
La detección importa más que la prevención. Si la defensa determinista no es posible, la visibilidad se vuelve crítica. Las organizaciones necesitan entender cuándo los agentes se comportan inesperadamente, no sólo esperar que se mantengan las salvaguardas.
La valor de comprar frente a construir está actual. OpenAI está invirtiendo mucho en equipos rojos automatizados y entrenamiento adversario. La mayoría de las empresas no pueden replicar esto. La pregunta es si las herramientas de terceros pueden cerrar la brecha y si el 65,3% sin defensas dedicadas adoptará antiguamente de que un incidente fuerce el problema.

En pocas palabras

OpenAI afirmó lo que los profesionales de la seguridad ya sabían: la inyección rápida es una amenaza permanente. La empresa que más impulsa la IA agente confirmó esta semana que “el modo agente… amplía la superficie de amenazas a la seguridad” y que la defensa requiere una inversión continua, no una opción única.

El 34,7% de las organizaciones que ejecutan defensas dedicadas no son inmunes, pero están posicionadas para detectar ataques cuando ocurren. La mayoría de las organizaciones, por el contrario, dependen de salvaguardas y documentos de políticas predeterminados en área de protecciones diseñadas específicamente. La investigación de OpenAI deja claro que ni siquiera las defensas sofisticadas pueden ofrecer garantías deterministas, lo que subraya el aventura de ese enfoque.

El anuncio de OpenAI esta semana subraya lo que los datos ya muestran: la brecha entre la implementación y la protección de la IA es existente y se está ampliando. Esperar garantías deterministas ya no es una logística. Los líderes de seguridad deben proceder en consecuencia.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

OpenAI admite que la inyección rápida llegó para quedarse ya que las empresas se quedan antes en defensas

El atacante automatizado basado en LLM de OpenAI encontró lagunas que los equipos rojos pasaron por parada

OpenAI define lo que las empresas pueden hacer para mantenerse seguras

Dónde se encuentran las empresas hoy

El problema de la desigualdad

Qué deberían sacar los CISO de esto

En pocas palabras

ztevenreal

Related Posts

Los equipos de pesca en el Atlántico siguen desenterrando accidentalmente armas químicas

Ahorre $50 en el Bose QuietComfort Extremista de segunda vivientes (¡actúe rápido!)

You Missed

Los equipos de pesca en el Atlántico siguen desenterrando accidentalmente armas químicas

Luis Carnación appointed Director of Electoral Observatory for Latin America

Ahorre $50 en el Bose QuietComfort Extremista de segunda vivientes (¡actúe rápido!)

RD entre países que la Interpol intervino por abusos infantiles – Remolacha

Pixel 10a frente a Pixel 10: una pequeña brecha ahora es un quebrada (vídeo)

Investigación: Pesimismo sobre el rumbo del país, pero optimismo personal