Cuando interactúas con un agente de inteligencia artificial, es casi imposible evitar compartir información personal, como tu nombre, detalles sobre tu lugar de residencia, tu trabajo y tus intereses. A medida que compartes más datos con un gran modelo de lenguaje (LLM, por sus siglas en inglés), aumenta el riesgo de que se utilicen de manera indebida en caso de una brecha de seguridad.
Un grupo de investigadores en seguridad de la Universidad de California en San Diego (UCSD) y de la Universidad Tecnológica de Nanyang, en Singapur, ha descubierto un nuevo ataque que instruye a un LLM a recopilar información personal almacenada en chats o compartida directamente con un hacker. Esta información incluye nombres, números de credenciales para votar, datos de tarjetas de débito y crédito, así como direcciones de correo electrónico y postal.
El ataque «Imprompter».
Los expertos han denominado el ataque «Imprompter», ya que utiliza un algoritmo para convertir un código o prompt proporcionado al LLM en un conjunto oculto de instrucciones maliciosas. Su modus operandi consiste en una frase en inglés que instruye al modelo a buscar información personal ingresada por alguien y enviarla a los hackers en una serie aleatoria de caracteres. A primera vista, puede parecer un mensaje sin sentido, pero estas claves indican al LLM que busque datos del usuario, los adjunta a una URL y los envía de manera discreta a un dominio controlado por el atacante, todo esto sin que la persona que interactúa con los agentes de IA se dé cuenta.
El propósito de este prompt es manipular al LLM para que obtenga información personal de la conversación y envíe datos sensibles a la dirección del hacker. «Ocultamos el objetivo del ataque a plena vista», señala Xiaohan Fu, autor principal de la investigación y estudiante de doctorado en informática en la UCSD. Los ocho investigadores involucrados en el estudio aplicaron el método en dos LLM: LeChat, de la empresa francesa Mistral AI, y el chatbotchino ChatGLM. En ambas instancias, lograron extraer información privada de manera sigilosa durante las conversaciones de prueba; según los expertos, la tasa de éxito alcanzó casi el 80%.
Mistral AI comunicó a WIRED que ha solucionado la vulnerabilidad de seguridad, y los investigadores han confirmado que la compañía desactivó una de sus funciones de chat. Por otro lado, ChatGLM destacó en un comunicado que considera la privacidad como una prioridad, aunque no ofreció comentarios específicos sobre sus debilidades en cuanto a seguridad.
Interpretaciones ocultas.
Desde el lanzamiento de ChatGPT de OpenAI a finales de 2022, que impulsó un auge en la inteligencia artificial generativa, investigadores y hackers han estado descubriendo vulnerabilidades en los sistemas de IA. Estas vulnerabilidades suelen clasificarse en dos grandes categorías:jailbreaks e inyecciones de SQL.
Los jailbreaks pueden burlar un sistema de IA al hacer que ignore las normas de seguridad integradas, utilizando instrucciones que anulan su configuración. Por otro lado, las inyecciones de SQL consisten en enviar a un LLM un conjunto de prompts provenientes de una fuente de datos externa. Por ejemplo, un mensaje oculto en un sitio web puede contener una instrucción que un sistema de IA procesará si realiza un resumen de la página.
Las inyecciones de SQL son vistas como uno de los principales riesgos de seguridad en la IA generativa y son difíciles de resolver. Este tipo de ataque genera gran preocupación entre los especialistas en seguridad, ya que los modelos de lenguaje de gran tamaño (LLM) están evolucionando hacia agentes capaces de realizar tareas en nombre de los humanos, como reservar vuelos o acceder a bases de datos externas para ofrecer respuestas concretas. Los ataques Imprompter dirigidos a chatbotsinician con una solicitud en lenguaje natural que instruye a la IA a obtener toda la información personal del usuario. El algoritmo desarrollado por los investigadores crea una versión ofuscada que mantiene el mismo significado para el modelo de lenguaje, pero que para los humanos se presenta como una secuencia de caracteres aparentemente aleatorios.
«Nuestra hipótesis actual sugiere que los LLM son capaces de aprender relaciones ocultas entre los tokens del texto, y estas conexiones van más allá del lenguaje natural. Es casi como si existiera un lenguaje distinto que el modelo comprende», comenta Fu sobre el proceso de transformación. Como resultado, el LLM sigue las instrucciones del adversario, recolectando toda la información personal y organizándola en un comando de imagen en Markdown, vinculando dicha información a una URL controlada por los atacantes. El LLM accede a esta URL para intentar recuperar la imagen, filtrando así la información personal hacia el atacante. En el chat, el agente de IA responde con un píxel transparente de 1×1 que resulta invisible para los usuarios.
Filtrar información «de manera accidental».
Los investigadores especulan que, si un ataque de este tipo ocurriera en la vida real, sería posible manipular socialmente a los usuarios para que creyeran que el mensaje confuso es beneficioso, como por ejemplo, para mejorar su currículum. Señalan que existen numerosos sitios web que ofrecen a las personas instrucciones que pueden utilizar. Realizaron pruebas del ataque al subir un CV a interacciones con chatbots, y estos lograron devolver la información personal contenida en el archivo.
Earlence Fernandes, profesora adjunta en la UCSD que participó en la investigación, señala que la técnica del ataque es bastante compleja. Esto se debe a que el prompt debe identificar información personal, generar una URL funcional, aplicar la sintaxis Markdown y, al mismo tiempo, no alertar al usuario sobre su comportamiento malicioso. Fernandes lo compara con un ataque de malware, mencionando su capacidad para realizar diversas funciones y actuar de maneras que el usuario podría no haber planeado: «Usualmente, se escribiría un código informático para llevar a cabo el hackeo con el malwareconvencional, pero en este caso, resulta más sencillo con un prompt relativamente breve».
Un representante de Mistral AI agradeció a los investigadores de seguridad por su apoyo en la mejora de la seguridad de los productos para los usuarios: «Como resultado de estos comentarios, la empresa implementó rápidamente las medidas correctivas necesarias para abordar la situación». Mistral AI consideró el problema como uno de «gravedad media», y su solución consistió en bloquear el renderizador Markdown, lo que implica que ya no será posible cargar imágenes externas. Fernandes opina que esta actualización podría ser una de las primeras ocasiones en que un aviso adverso conduce a la reparación de un producto de IA, en lugar de simplemente mitigar el ataque filtrando el aviso. Sin embargo, advierte que restringir las capacidades de los agentes LLM podría resultar «contraproducente» a largo plazo.
Mientras tanto, un comunicado de los desarrolladores de ChatGLM indica que la empresa ha implementado medidas de seguridad para resguardar la privacidad de los usuarios: «Nuestro modelo es seguro y priorizamos la protección del usuario. Nuestro propósito es aprovechar la fuerza de la comunidad de código abierto para inspeccionar y evaluar de manera más efectiva todos los aspectos de las capacidades de estos modelos, incluida su seguridad».
Una «actividad de alto riesgo».
Dan McInerney, investigador principal de amenazas de la empresa de seguridad Protect AI, sugiere que el documento Imprompter «da a conocer un algoritmo para la creación automática de códigos que se pueden utilizarse para diversas explotaciones, como la exfiltración de PII, la clasificación errónea de imágenes o el uso malicioso de herramientas a las que puede acceder el agente de IA».
McInerney señala que, aunque muchos de los tipos de ataques discutidos en la investigación pueden parecer similares a métodos anteriores, el algoritmo los conecta. «Esto se centra más en la mejora de los ataques automatizados de LLM que en la identificación de nuevas superficies de amenaza en ellos». Sin embargo, añade que a medida que los grandes modelos de lenguaje se utilizan con mayor frecuencia y se les otorga más autoridad para realizar acciones en nombre de las personas, las posibilidades de que ocurran ataques en su contra aumentan: «Implementar un agente de IA que acepte entradas arbitrarias de los usuarios debe considerarse una actividad de alto riesgo que requiere pruebas de seguridad exhaustivas y creativas antes de su implementación».
Para las empresas, esto implica reconocer cómo un agente de inteligencia artificial puede interactuar con los datos y los posibles abusos que pueden surgir. En el caso de los individuos, al igual que con las recomendaciones de seguridad habituales, es importante considerar cuánta información se comparte con cualquier aplicación o gran empresa de inteligencia artificial. Además, si se utilizan datos de internet, se debe tener cuidado con su origen.