Centroamérica.— La IA Generativa (GenAI) democratizó la creación de audio y vídeo falsos, hasta el punto de que suscitar un clip fabricado es tan manejable como pulsar un rama o dos.
Las deepfakes pueden ser usadas de varias formas: desde eludir autenticaciones y controles, hasta infiltrarse en organizaciones creando un candidato mentiroso y sintético para procesos de selección de personal. Sin bloqueo, podría decirse que la veterano amenaza que plantean es el fraude financiero/transferencias bancarias y el secuestro de cuentas de ejecutivos.
ESET, compañía líder en detección proactiva de amenazas, acerca herramientas para poder identificar cuando una llamamiento es falsa.
El Gobierno britano afirma que el año pasado se compartieron hasta 8 millones de clips falsos, frente a los 500 mil que habían sido compartidos en 2023. La número positivo puede ser mucho veterano y, así las cosas, las organizaciones tienden a subestimar esta amenaza.
Como ha demostrado un prueba de Jake Moore, Mundial Security Advisor de ESET, nunca ha sido tan manejable editar un ataque de audio deepfake. Todo lo que se requiere es un clip corto de la víctima para ser suplantado y GenAI puede hacer el resto. Así es como podría proceder un ataque, según ESET:
1. Un atacante selecciona a la persona que va a suplantar. Puede ser un CEO, un CFO o incluso un proveedor.
2. Encuentra una muestra de audio en Internet, lo que resulta sobrado manejable para ejecutivos de parada nivel que hablan en conocido con regularidad. Puede proceder de una cuenta en las redes sociales, de una convocatoria de beneficios, de una entrevista en vídeo o televisión o de cualquier otra fuente. Unos segundos de compacto deberían adecuar.
3. Seleccionan a la persona a la que van a emplazar. Para ello, puede ser necesario realizar una investigación documental, normalmente en LinkedIn, en escudriñamiento de personal del servicio de amparo informática o miembros del equipo financiero.
4. Pueden emplazar directamente a la persona o mandar un correo electrónico por aventajado: por ejemplo, un director normal que solicita una transferencia de plata urgente, una solicitud de restablecimiento de contraseña o autenticación multifactor (MFA), o un proveedor que exige el cuota de una extracto vencida.
5. Llaman al objetivo preseleccionado, utilizando audio deepfake generado por GenAI para hacerse suceder por el CEO/proveedor. Dependiendo de la aparejo, pueden ceñirse a un discurso preestablecido o utilizar un método más sofisticado de “voz a voz” en el que la voz del atacante se traduce casi en tiempo positivo a la de su víctima.
“Este tipo de ataque es cada vez más de lance, sencillo y convincente. Algunas herramientas son capaces incluso de insertar ruido de fondo, pausas y tartamudeos para que la voz suplantada resulte más veraz. Cada vez imitan mejor los ritmos, las inflexiones y los tics verbales propios de cada orador. Y cuando un ataque se asta por teléfono, los fallos relacionados con la IA pueden ser más difíciles de detectar para quien atiende”, advierte Macio Micucci, investigador de Seguridad Informática de ESET Latinoamérica.
Los atacantes igualmente pueden utilizar tácticas de ingeniería social, como presionar a que la persona responda urgentemente a su petición, con el fin de alcanzar sus objetivos. Si a esto se le añade que a menudo se hacen suceder por un parada ejecutante, es manejable ver por qué algunas víctimas son engañadas. Uno de los mayores errores se produjo en 2020, cuando se engañó a un empleado de una empresa de los Emiratos Árabes Unidos haciéndole creer que su director había llamado para solicitar una transferencia de fondos de 35 millones de dólares para una operación de fusión y adquisición.
Dicho esto, hay formas de detectar a un impostor. Desde ESET sostienen que dependiendo de lo sofisticada que sea la GenAI que están utilizando, puede ser posible discernir:
- Un ritmo antinatural en el discurso del orador
- Un tono emocional antinaturalmente plano en la voz del orador
- Respiración antinatural o incluso frases sin respiración
- Un sonido inusualmente robótico (cuando se utilizan herramientas menos avanzadas)
- Ruido de fondo extrañamente carente o demasiado uniforme
Adicionalmente, en términos corporativos se recomienda originarse por la formación y concienciación de los empleados. Estos programas, según ESET, deben actualizarse para incluir simulaciones de audio deepfake que garanticen que el personal sepa qué esperar, qué está en movilidad y cómo hacer. Se les debe enseñar a detectar los signos reveladores de la ingeniería social y los escenarios típicos de deepfake. Deben realizarse ejercicios de red team para comprobar si los empleados asimilan acertadamente el proceso correcto:
- Demostración fuera de facción de cualquier solicitud telefónica, es aseverar, utilizar cuentas de transporte corporativas para comprobar con el remitente de forma independiente
- Dos personas que firmen las transferencias financieras importantes o los cambios en los datos bancarios de los proveedores
- Contraseñas o preguntas acordadas previamente que los ejecutivos deban reponer para demostrar que son quienes dicen ser por teléfono
“Las falsificaciones son sencillas y su producción cuesta poco. Dadas las enormes sumas que pueden obtener los estafadores, es poco probable que veamos pronto el final de las estafas de clonación de voz. Por lo tanto, la mejor opción que tiene una ordenamiento para mitigar el aventura es un triple enfoque basado en las personas, los procesos y la tecnología. Para que se adapte a medida que avanza la innovación en IA, es importante que sea revisado periódicamente. El nuevo panorama del ciberfraude exige una atención constante”, concluye Micucci de ESET.






