AbiertoAI ha compartido sus avances para animar la seguridad del navegador ChatGPT Atlas frente a vulnerabilidades de ataques de inyección, con la implementación de un nuevo sistema de defensa continua que se anticipa a estas amenazas y alcahuetería de aminorar los riesgos para los usuarios.
El navegador ChatGPT Atlas, arrojado en octubre, ofrece funciones versátiles que permiten al asistente visualizar páginas web y realizar acciones adentro del navegador de forma autónoma, de forma que aumenta la productividad de navegación y ayuda al legatario de múltiples formas.
Sin retención, ChatGPT Atlas, como el resto de navegadores agénticos con capacidad para realizar de forma autónoma, es pasivo a los ataques de tipo inyección, que introducen instrucciones ocultas para que el maniquí de jerga las procese y ejecute acciones que normalmente tiene bloqueadas por ser potencialmente dañinas.
Esta vulnerabilidad, que los convierte en un objetivo de valía para los ciberataques, se dio a conocer recientemente, tras identificar un caso de inyección de portapapeles, que hace que la IA copie un enlace receloso en el portapeles sin que el legatario se dé cuenta para activarlo en el momento en que decide pegar el contenido en la mostrador de direcciones.
Ahora, OpenAI ha trasladado que está llevando a límite un refuerzo continuo contra ataques de inyección rápida, de cara a descubrir y corregir de forma proactiva las vulnerabilidades de los agentes antaño de que “se conviertan en armas en la prácticas”.
Así lo ha detallado la compañía en un comunicado en su blog, donde ha compartido que ha implementado una aggiornamento de seguridad para ChatGPT Atlas que incluye un nuevo maniquí entrenado para confrontar adversarios y con medidas de seguridad reforzadas.
Esta aggiornamento de seguridad incluye un ciclo de respuesta rápida, desarrollado de la mano de su equipo rojo interno, que dispone capacidades para investigar y descubrir continuamente ataques y dirigir mitigaciones rápidamente.
Asimismo, la tecnológica ha especificado que, para investigar nuevas estrategias de ataque con este sistema, han empleado un “atacante automatizado basado en LLM”, es afirmar, un bot entrenado para desempeñar el papel que llevaría a límite un ‘hacker’, para que busque maneras de dirigir instrucciones maliciosas a un agente de IA en ChatGPT Atlas.
“Nuestro atacante entrenado mediante estudios de refuerzo puede inducir a un agente a ejecutar flujos de trabajo dañinos sofisticados y de derrochador importancia que se desarrollan en decenas (o incluso cientos) de pasos”, ha explicado OpenAI.
De esta forma, el bot lleva a límite ataques en simulaciones para identificar cómo actuaría el agente de IA al respecto y qué acciones debería tomar para evitar dichos ataques. Este proceso se realiza en onda, hexaedro que, el bot analiza la respuesta del agente delante su ataque y lo ajusta para retornar a intentarlo.
Como resultado, OpenAI ha detallado que, gracias a este ciclo, están descubriendo nuevas estrategias de ataque internamente, “antaño de que aparezcan en el mundo verdadero”. Luego, esta forma de invadir la inyección rápida, próximo con una veterano inversión en los controles de seguridad, “puede hacer que los ataques sean cada vez más difíciles y costosos”, reduciendo el peligro de inyección rápida en la existencia.
Con todo ello, la compañía ha trasladado su intención de continuar trabajando para que los usuarios puedan abandonarse en un agente de ChatGPT para usar su navegador “de la forma en que confiaría en un amigo mucho competente y consciente de la seguridad”.
OpenAI además ha admitido que es “improbable” que la inyección rápida, “al igual que las estafas y la ingeniería social en la web” se resuelvan por completo. “Consideramos que la inyección rápida es un desafío a derrochador plazo para la seguridad de la IA, y necesitaremos vigorizar continuamente nuestras defensas contra ella”, ha sentenciado la tecnológica.





