Cómo reconocer llamadas falsas con IA – Una amenaza creciente para las empresas

La IA Generativa (GenAI) democratizó la creación de audio y vídeo falsos, hasta el punto de que generar un clip fabricado es tan fácil como pulsar un botón o dos. Las deepfakes pueden ser usadas de varias formas: desde eludir autenticaciones y controles, hasta infiltrarse en organizaciones creando un candidato falso y sintético para procesos de selección de personal. Sin embargo, podría decirse que la mayor amenaza que plantean es el fraude financiero/transferencias bancarias y el secuestro de cuentas de ejecutivos. ESET, acerca herramientas para poder identificar cuando una llamada es falsa (Fuente ESET Latam).

El Gobierno británico afirma que el año pasado se compartieron hasta 8 millones de clips falsos, frente a los 500 mil que habían sido compartidos en 2023. La cifra real puede ser mucho mayor y, así las cosas, las organizaciones tienden a subestimar esta amenaza.

Como ha demostrado un experimento de Jake Moore, Global Security Advisor de ESET, nunca ha sido tan fácil lanzar un ataque de audio deepfake. Todo lo que se requiere es un clip corto de la víctima para ser suplantado y GenAI puede hacer el resto. Así es como podría proceder un ataque, según ESET:

Un atacante selecciona a la persona que va a suplantar. Puede ser un CEO, un CFO o incluso un proveedor.
Encuentra una muestra de audio en Internet, lo que resulta bastante fácil para ejecutivos de alto nivel que hablan en público con regularidad. Puede proceder de una cuenta en las redes sociales, de una convocatoria de beneficios, de una entrevista en vídeo o televisión o de cualquier otra fuente. Unos segundos de grabación deberían bastar.
Seleccionan a la persona a la que van a llamar. Para ello, puede ser necesario realizar una investigación documental, normalmente en LinkedIn, en busca de personal del servicio de asistencia informática o miembros del equipo financiero.
Pueden llamar directamente a la persona o enviar un correo electrónico por adelantado: por ejemplo, un director general que solicita una transferencia de dinero urgente, una solicitud de restablecimiento de contraseña o autenticación multifactor (MFA), o un proveedor que exige el pago de una factura vencida.
Llaman al objetivo preseleccionado, utilizando audio deepfake generado por GenAI para hacerse pasar por el CEO/proveedor. Dependiendo de la herramienta, pueden ceñirse a un discurso preestablecido o utilizar un método más sofisticado de «voz a voz» en el que la voz del atacante se traduce casi en tiempo real a la de su víctima.

“Este tipo de ataque es cada vez más barato, sencillo y convincente. Algunas herramientas son capaces incluso de insertar ruido de fondo, pausas y tartamudeos para que la voz suplantada resulte más creíble. Cada vez imitan mejor los ritmos, las inflexiones y los tics verbales propios de cada orador. Y cuando un ataque se lanza por teléfono, los fallos relacionados con la IA pueden ser más difíciles de detectar para quien atiende.”, advierte Macio Micucci, Investigador de Seguridad Informática de ESET Latinoamérica.

Los atacantes también pueden utilizar tácticas de ingeniería social, como presionar a que la persona responda urgentemente a su petición, con el fin de lograr sus objetivos. Si a esto se le añade que a menudo se hacen pasar por un alto ejecutivo, es fácil ver por qué algunas víctimas son engañadas. Uno de los mayores errores se produjo en 2020, cuando se engañó a un empleado de una empresa de los Emiratos Árabes Unidos haciéndole creer que su director había llamado para solicitar una transferencia de fondos de 35 millones de dólares para una operación de fusión y adquisición.

Dicho esto, hay formas de detectar a un impostor. Desde ESET sostienen que dependiendo de lo sofisticada que sea la GenAI que están utilizando, puede ser posible discernir:

Un ritmo antinatural en el discurso del orador
Un tono emocional antinaturalmente plano en la voz del orador
Respiración antinatural o incluso frases sin respiración
Un sonido inusualmente robótico (cuando se utilizan herramientas menos avanzadas)
Ruido de fondo extrañamente ausente o demasiado uniforme

Además, en términos corporativos se recomienda empezar por la formación y concienciación de los empleados. Estos programas, según ESET, deben actualizarse para incluir simulaciones de audio deepfake que garanticen que el personal sepa qué esperar, qué está en juego y cómo actuar. Se les debe enseñar a detectar los signos reveladores de la ingeniería social y los escenarios típicos de deepfake. Deben realizarse ejercicios de red team para comprobar si los empleados asimilan bien el proceso correcto:

Verificación fuera de banda de cualquier solicitud telefónica, es decir, utilizar cuentas de mensajería corporativas para comprobar con el remitente de forma independiente
Dos personas que firmen las transferencias financieras importantes o los cambios en los datos bancarios de los proveedores
Contraseñas o preguntas acordadas previamente que los ejecutivos deban responder para demostrar que son quienes dicen ser por teléfono

“Las falsificaciones son sencillas y su producción cuesta poco. Dadas las enormes sumas que pueden obtener los estafadores, es poco probable que veamos pronto el final de las estafas de clonación de voz. Por lo tanto, la mejor opción que tiene una organización para mitigar el riesgo es un triple enfoque basado en las personas, los procesos y la tecnología. Para que se adapte a medida que avanza la innovación en IA, es importante que sea revisado periódicamente. El nuevo panorama del ciberfraude exige una atención constante.”, concluye Micucci de ESET.