Incluso mientras OpenAI trabaja para acorazar su navegador Atlas AI contra ataques cibernéticos, la compañía admite que las inyecciones rápidas, un tipo de ataque que manipula a los agentes de AI para que sigan instrucciones maliciosas a menudo ocultas en páginas web o correos electrónicos, es un aventura que no desaparecerá pronto, lo que genera dudas sobre la seguridad con la que los agentes de AI pueden negociar en la web abierta.
“Es poco probable que la inyección rápida, al igual que las estafas y la ingeniería social en la web, alguna vez se ‘resuelva’ por completo”, escribió OpenAI en un artículo del lunes. publicación de blog detallando cómo la firma está reforzando la armadura de Atlas para combatir los incesantes ataques. La compañía admitió que el “modo agente” en ChatGPT Atlas “expande la superficie de amenazas a la seguridad”.
OpenAI lanzó su navegador ChatGPT Atlas en octubre y los investigadores de seguridad se apresuraron a informar sus demostraciones, demostrando que era posible escribir algunas palabras en Google Docs que eran capaces de cambiar el comportamiento del navegador subyacente. Ese mismo día, Fuerte publicó una publicación de blog explicando que la inyección rápida indirecta es un desafío sistemático para los navegadores con tecnología de inteligencia fabricado, incluido Perplexity’s Comet.
OpenAI no es el único que reconoce que las inyecciones basadas en indicaciones no van a desaparecer. El El Centro Franquista de Seguridad Cibernética del Reino Unido advirtió a principios de este mes que los ataques de inyección contra aplicaciones de IA generativa “quizás nunca se mitiguen por completo”, lo que pone a los sitios web en aventura de ser víctimas de violaciones de datos. La agencia del gobierno del Reino Unido aconsejó a los profesionales cibernéticos que reduzcan el aventura y el impacto de las inyecciones rápidas, en espacio de pensar que los ataques se pueden “detener”.
Por parte de OpenAI, la compañía dijo: “Consideramos la inyección rápida como un desafío de seguridad de la IA a derrochador plazo, y necesitaremos acorazar continuamente nuestras defensas contra ella”.
¿La respuesta de la empresa a esta tarea de Sísifo? Un ciclo proactivo y de respuesta rápida que, según la empresa, se muestra prometedor desde el principio para ayudar a descubrir nuevas estrategias de ataque internamente ayer de que sean explotadas “en la naturaleza”.
Esto no es del todo diferente de lo que rivales como Anthropic y Google han estado diciendo: que para guerrear contra el aventura persistente de ataques rápidos, las defensas deben estratificarse y someterse a pruebas de estrés continuamente. El trabajo nuevo de Googlepor ejemplo, se centra en controles a nivel arquitectónico y de políticas para sistemas agentes.
Pero donde OpenAI está adoptando un rumbo diferente es con su “atacante automatizado basado en LLM”. Este atacante es básicamente un autómata que OpenAI entrenó, utilizando formación reforzado, para desempeñar el papel de un hacker que sondeo formas de acaecer instrucciones maliciosas a un agente de IA.
El autómata puede probar el ataque en simulación ayer de usarlo de verdad, y el simulador muestra cómo pensaría la IA objetivo y qué acciones tomaría si viera el ataque. Luego, el autómata puede estudiar esa respuesta, modificar el ataque e intentarlo una y otra vez. Esa información sobre el razonamiento interno de la IA objetivo es poco a lo que los externos no tienen comunicación, por lo que, en teoría, el autómata de OpenAI debería poder encontrar fallas más rápido que un atacante del mundo existente.
Es una táctica popular en las pruebas de seguridad de la IA: crear un agente para encontrar los casos extremos y probarlos rápidamente en simulación.
“Nuestro atacante entrenado (en formación por refuerzo) puede dirigir a un agente para que ejecute flujos de trabajo sofisticados y dañinos a derrochador plazo que se desarrollan en decenas (o incluso cientos) de pasos”, escribió OpenAI. “Asimismo observamos nuevas estrategias de ataque que no aparecieron en nuestra campaña de formación de equipos humanos ni en informes externos”.

En una demostración (en la foto de hacia lo alto), OpenAI mostró cómo su atacante automatizado deslizó un correo electrónico sagaz en la bandeja de entrada de un adjudicatario. Cuando más tarde el agente de IA escaneó la bandeja de entrada, siguió las instrucciones ocultas en el correo electrónico y envió un mensaje de renuncia en espacio de redactar una respuesta de fuera de la oficina. Pero luego de la modernización de seguridad, el “modo agente” pudo detectar con éxito el intento de inyección y señalizarlo al adjudicatario, según la empresa.
La compañía dice que si proporcionadamente es difícil defenderse contra una inyección rápida de guisa infalible, se está apoyando en pruebas a gran escalera y ciclos de parches más rápidos para acorazar sus sistemas ayer de que aparezcan en ataques del mundo existente.
Un portavoz de OpenAI se negó a compartir si la modernización de la seguridad de Atlas ha transmitido como resultado una reducción mensurable en las inyecciones exitosas, pero dice que la empresa ha estado trabajando con terceros para proteger Atlas contra inyecciones rápidas desde ayer del dispersión.
Rami McCarthy, investigador principal de seguridad de la firma de ciberseguridad Wiz, dice que el formación por refuerzo es una forma de adaptarse continuamente al comportamiento de los atacantes, pero es solo una parte del panorama.
“Una forma útil de razonar sobre el aventura en los sistemas de IA es la autonomía multiplicada por el comunicación”, dijo McCarthy a TechCrunch.
“Los navegadores agentes tienden a instalarse una parte desafiante de ese espacio: una autonomía moderada combinada con un comunicación muy parada”, dijo McCarthy. “Muchas recomendaciones actuales reflejan esa compensación. Prohibir el comunicación con inicio de sesión reduce principalmente la exposición, mientras que exigir la revisión de las solicitudes de confirmación limita la autonomía”.
Esas son dos de las recomendaciones de OpenAI para que los usuarios reduzcan su propio aventura, y un portavoz dijo que Atlas incluso está capacitado para obtener la confirmación del adjudicatario ayer de cursar mensajes o realizar pagos. OpenAI incluso sugiere que los usuarios den a los agentes instrucciones específicas, en espacio de brindarles comunicación a su bandeja de entrada y decirles que “tomen las medidas necesarias”.
“La amplia vastedad hace que sea más obvio que el contenido oculto o sagaz influya en el agente, incluso cuando existen salvaguardas”, según OpenAI.
Si proporcionadamente OpenAI dice que proteger a los usuarios de Atlas contra inyecciones rápidas es una máxima prioridad, McCarthy invita a cierto incredulidad en cuanto al retorno de la inversión para los navegadores propensos a riesgos.
“Para la mayoría de los casos de uso cotidianos, los navegadores agentes aún no ofrecen el valía suficiente para razonar su perfil de aventura contemporáneo”, dijo McCarthy a TechCrunch. “El aventura es parada transmitido su comunicación a datos confidenciales como correo electrónico e información de plazo, aunque ese comunicación incluso es lo que los hace poderosos. Ese permanencia evolucionará, pero hoy en día las compensaciones siguen siendo muy reales”.





