Una nueva y preocupante fase en la ciberseguridad ha emergido: los hackers están utilizando la inteligencia artificial para lanzar ataques más sofisticados y efectivos contra otros sistemas de IA, particularmente contra los Grandes Modelos de Lenguaje (LLMs). El problema central radica en los «ataques de inyección de prompts«, donde instrucciones maliciosas se insertan sutilmente en el texto que procesa una IA, obligándola a desviarse de sus reglas, lo que podría llevar a filtraciones de datos o resultados incorrectos.
Tradicionalmente, estos ataques requerían un considerable esfuerzo manual, especialmente en modelos de peso cerrado como GPT-4 o Gemini. Sin embargo, una nueva técnica llamada «Fun-Tuning», desarrollada por investigadores universitarios, ha automatizado este proceso. Fun-Tuning explota la propia API de fine-tuning de Google para Gemini, creando automáticamente inyecciones de prompts altamente exitosas al identificar «prefijos» y «sufijos» óptimos para los prompts maliciosos.
Este método ha logrado tasas de éxito de hasta el 82% en algunos modelos de Gemini, un aumento significativo en comparación con los ataques tradicionales. Lo más preocupante es que los ataques desarrollados para una versión de Gemini pueden transferirse fácilmente a otras, y el bajo costo de lanzar un ataque de este tipo (alrededor de $10 en tiempo de cómputo) lo hace altamente accesible.
Google ha reconocido la amenaza, pero una defensa simple es un desafío, ya que eliminar datos clave del proceso de entrenamiento reduciría la utilidad de la herramienta para los desarrolladores. Este desarrollo significa una nueva fase en la seguridad de la IA, donde la inteligencia artificial no es solo el objetivo, sino también el arma.

