Desafíos de ciberseguridad en la inteligencia artificial

Desafíos de ciberseguridad en la inteligencia artificial

El artículo repone los distintos riesgos y vulnerabilidades del entorno digital y advierte sobre las acciones que deben ejercerse para la preservación de los sistemas informáticos.

| Por Leonardo Nicolás Servalli |

Es plenamente reconocido que las redes y sistemas informáticos han sido pilares de la sociedad moderna durante al menos las últimas seis décadas y han aumentado su importancia exponencialmente con el transcurso del tiempo. De forma similar, comenzamos a notar que la integración de inteligencia artificial en los sistemas informáticos es una tendencia que podría ser irreversible.

Son tan grandes (y en algunos casos inéditos) los beneficios obtenidos con la inteligencia artificial que representan una evolución sin precedentes en la forma que interactuamos con la tecnología, reduciendo notablemente la complejidad en la interacción de los usuarios con los sistemas informáticos. El impacto que esto tendrá en la sociedad será enorme, puesto que la inteligencia artificial se convertirá probablemente en la nueva interfaz con el usuario.

En esta carrera por el dominio del mercado, las grandes empresas de tecnología como Google, Amazon y Microsoft (por nombrar solo algunas) comienzan a ofrecer una gran variedad de módulos de inteligencia artificial orientados a diferentes casos de uso, como por ejemplo el procesamiento de lenguaje natural y generación de contenido (Amazon Lex, ChatGPT), identificación de patrones complejos (AWS Rekognition), clasificación de metadatos en contenido digital (OpenAI CLIP), automatización de tareas complejas (IBM Cloud Pak), interacción y comando de sistemas en lenguaje natural (Google Natural Language AI), entre otros.

Por su parte, en el ámbito empresarial se percibe que si no se incorporan funciones de inteligencia artificial en los productos y sistemas de software nuevos y/o existentes se corre un serio riesgo de perder mercado y desaparecer en manos de competidores. Es por este motivo que cada vez más frecuentemente las empresas se ven envueltas en proyectos en los cuales se opta por integrar módulos de inteligencia artificial para dar valor agregado en sus productos, mejorar la experiencia del usuario y mantenerse competitivas.

Esta es la realidad en que vivimos hoy, y como resultado la inteligencia artificial se integrará y diseminará estructuralmente en las redes y sistemas de información en todos los ámbitos que conocemos.

Ahora bien, es importante destacar que estos módulos de inteligencia artificial no solo agregan funcionalidades y beneficios a los sistemas de información, sino que además agregan una capa extra de complejidad y abren la puerta a una serie de riesgos y vulnerabilidades de ciberseguridad que afectan a la inteligencia artificial y que pueden presentar un enorme problema en caso de ser explotados (la investigación en este campo específico está en pleno desarrollo y es actualmente una de las áreas más activas dentro de la ciberseguridad).

Para ilustrar un poco sobre esta problemática podemos mencionar algunos de los riesgos de ciberseguridad más conocidos que afectan a los módulos de inteligencia artificial, entre los que se encuentran:

Exposición de datos sensibles

Los modelos de IA a menudo requieren grandes cantidades de datos para entrenarse y funcionar correctamente. Esto puede generar problemas de privacidad y seguridad si estos datos contienen información sensible sobre individuos, empresas o contenido restringido. La exposición accidental o intencional de estos datos puede tener consecuencias graves en términos de violación de la privacidad y el cumplimiento de las regulaciones de protección de datos. Un ejemplo de este tipo de ataques es el denominado “ataque de persuasión” (“persuasion attack”) en el cual podemos influenciar un sistema de inteligencia artificial a darnos información restringida mediante un bypass de las reglas que tiene implementadas. Un ataque de este tipo que es relativamente popular fue el “Exploit de la abuela” (“Grandma Exploit”) divulgado en el año 2023, en el cual se realiza un bypass de las reglas de ciberseguridad de un chatbot (como ChatGPT o el ChatBot ‘Clyde’ de Discord) solicitando al mismo que se haga pasar nuestra fallecida abuela que todas las noches, para poder dormir, nos leía la receta del napalm, o claves de Windows 10 Pro, o cualquier otro contenido restricto que está disponible en los confines de internet y que formó parte del set de aprendizaje del chatbot1. También es posible utilizar este exploit para inducir al chatbot a realizar tareas restrictas como por ejemplo resolver códigos Captcha2.

Ataques de Ingeniería Inversa

Los modelos de IA, especialmente aquellos utilizados en aplicaciones críticas como la detección de fraudes o la seguridad informática, pueden ser víctimas de ataques de ingeniería inversa. Los atacantes pueden intentar comprender cómo funcionan estos modelos para desarrollar técnicas para evadir sus defensas o explotar sus debilidades. Esto puede llevar a la creación y distribución de malware sofisticado que pueda evadir la detección basada en IA. Un ejemplo de este tipo de ataque fue publicado en el año 2021 por la universidad de Berkeley y el equipo de Google Brain en el artículo llamado “Extracting Training Data from Large Language Models”3 en el cual demostraron cómo era posible realizar ataques de ingeniería inversa para extraer información sensible del modelo GPT-2 de OpenAI, incluyendo cientos de secuencias de texto de los datos de entrenamiento del modelo. Estos ejemplos extraídos incluían información de identificación personal (pública) (nombres, números de teléfono y direcciones de correo electrónico), conversaciones de IRC, entre otros. Otra de las conclusiones de la investigación fue que cuanto más grande era el set de datos de entrenamiento del modelo, más vulnerable era la inteligencia artificial a este tipo de ataques.

Fallas de confiabilidad

Los modelos de IA pueden ser susceptibles a fallos imprevistos o comportamientos inesperados cuando se enfrentan a datos o situaciones que no han encontrado durante su entrenamiento. Esta falta de confiabilidad puede ser explotada por atacantes para provocar fallas en el sistema o para manipular su comportamiento de maneras no deseadas. Como uno de los ejemplos de falla en la confiabilidad de sistemas de inteligencia artificial podemos referir al estudio realizado por Joy Buolamwini y Timnit Gebru denominado “The Gender Shades Project”4 en el cual se analizaron sistemas de reconocimiento facial de importantes empresas tecnológicas y se encontró que tenían tasas de error mucho más altas para mujeres y personas de color en comparación con hombres blancos.

Vulnerabilidades en el aprendizaje automático

Los modelos de IA basados en el aprendizaje automático (machine learning) son propensos a diversas vulnerabilidades. Por ejemplo, los ataques de adversarios pueden manipular los datos de entrenamiento para engañar al modelo y tomar decisiones incorrectas. También, los modelos de IA pueden ser vulnerables a ataques de envenenamiento de datos, donde los atacantes introducen datos maliciosos durante el proceso de entrenamiento para alterar el comportamiento del modelo. A modo de ejemplo, en el año 2017 investigadores de las universidades de Zhejiang y Princeton presentaron un artículo titulado “Synthesizing Robust Adversarial Audio Examples”5 en el cual demostraron que era posible engañar a los sistemas de reconocimiento de voz mediante la inserción de ruido imperceptible para los humanos en las señales de audio, lo que producía que un sistema de reconocimiento de voz transcriba incorrectamente palabras o frases específicas, afectando la performance del sistema.

Entre los últimos ejemplos de vulnerabilidades en módulos de inteligencia artificial podemos mencionar una que fue anunciada recientemente en el año 2024 en el marco del trabajo titulado “ComPromptMized: Unleashing Zero-click Worms that Target GenAI-Powered Applications”6 en lo que podría tratarse del primer malware del tipo “Gusano” Informático con capacidad de autopropagarse entre módulos de Inteligencia Artificial Generativa (o GenAI, por la abreviación en inglés de Generative AI). Sucede que en los últimos años las empresas han estado creando ecosistemas en los cuales se han integrado módulos del tipo GenAI con múltiples sistemas informáticos para la ejecución de tareas semiautomáticas o completamente autónomas. En muchos de estos casos, incluso se han interconectado diferentes módulos del tipo GenAI para interactuar entre sí en ecosistemas en los cuales se delegan cada vez más responsabilidades como la ejecución de tareas de búsqueda, comparación, decisión, creación de contenido, envío de correos electrónicos, compras en mercados electrónicos (o e-markets), por mencionar solo algunas pocas.

De esta forma, en el marco del trabajo citado, se presentó el Gusano Informático “Morris II”, en alusión al supuesto primer gusano informático de la historia llamado “Morris” creado por Robert Tappan Morris Jr., en la Universidad Cornell en 1988 (existen gusanos informáticos que datan de la década del 70, como por ejemplo el Gusano Creeper7 del año 1971). En definitiva, las capacidades de este nuevo gusano son las de propagarse y autorreplicarse entre los sistemas de inteligencia artificial del tipo GenAI mediante el empleo de instrucciones maliciosas enviadas de un modelo GenAI a otro dentro del ecosistema. La aplicación de Morris II se puso a prueba contra asistentes de correo electrónico impulsados por GenAI en dos casos de uso, siendo el primero el envío de spam y el segundo la exfiltración de datos personales. Además se han utilizado diferentes tipos de datos de entrada como texto e imágenes para producir este comportamiento malicioso. El gusano se puso a prueba con tres modelos GenAI diferentes (Gemini Pro, ChatGPT 4.0 y LLaVA) y como resultado se han evaluado diferentes factores como por ejemplo la velocidad de propagación, replicación, y actividad maliciosa que influyen en el rendimiento del gusano, y están disponibles como resultado de dicha investigación.

Para finalizar con estos ejemplos vamos a mencionar un caso muy reciente que involucra el ChatBot de Google denominado “Gemini” y la divulgación de fakenews y desinformación en torno a las elecciones presidenciales que tendrán lugar este año en los Estados Unidos. Tal como menciona el artículo de Reuters8 fue restringida por Google la posibilidad de que los usuarios puedan realizar consultas sobre los candidatos a las elecciones y cuestiones relacionadas con este asunto dentro del chatbot. Esto es debido a que dentro del set de datos de entrenamiento de estos módulos de inteligencia artificial muchas veces se incluye información incorrecta/falsa que se ha propagado por internet y es muy complejo filtrar, y luego forman parte de las respuestas del chatbot a las preguntas de los usuarios.

También podría darse el caso en el cual por diversos motivos un fabricante de este tipo de módulos de inteligencia artificial tenga intereses por restringir el acceso a cierto tipo de información, ya que podría perjudicarlo directa o indirectamente, y por consiguiente filtre el acceso a la misma o elimine la información a la cual se puede acceder mediante consultas a los mismos.

La pregunta que uno podría hacerse es: ¿por qué estos ataques son posibles? Y aún más importante, ¿existe alguna forma de evitarlos?

Con respecto a la primera pregunta, si bien fue en parte respondida previamente, podemos decir que entre las principales causas por las cuales los módulos de inteligencia artificial son vulnerables podemos incluir la parcialidad en los datos de entrenamiento (lo que puede llevar a decisiones discriminatorias o erróneas), falta de pruebas exhaustivas para identificar vulnerabilidades (en muchos casos se trata de modelos “enlatados” preentrenados que vienen con fallas introducidas por errores del fabricante para las cuales los mismos publican actualizaciones y parches de seguridad frecuentemente), y la exposición de los modelos a datos de entrenamiento sensibles o incorrectos (datos de entrenamiento no seleccionados adecuadamente, que pueden incluir datos personales, información confidencial, o directamente información incorrecta).

Otros casos están más relacionados a problemas de diseño al momento de integrar estos módulos de inteligencia artificial con sistemas nuevos o existentes, como por ejemplo no delimitar correctamente el espacio de datos a los cuales los modelos tienen acceso a través de APIs, o definir incorrectamente los límites sobre los cuales tienen acción los módulos de inteligencia artificial y las libertades que se les dan a los mismos (como en los casos de los sistemas multimodales en los cuales se permiten automaciones como la creación de texto e imágenes y tareas tales como el envío de correos, interacción con otros sistemas, etc.).

Sobre la segunda cuestión, existen prácticas que reducen considerablemente las vulnerabilidades y la posibilidad de un ataque.

Entre estas recomendaciones de seguridad podemos mencionar la validación de los datos de entrada y la detección de adversarios mediante el monitoreo de los datos de entrada del modelo (integridad y autenticidad), así como el monitoreo continuo de los módulos de inteligencia artificial para detección de anomalías a nivel de red y en el comportamiento de los mismos. Por su parte, el control de acceso y la encriptación de los datos también permiten limitar considerablemente el nivel de acceso a la información y resguardar los datos sensibles o clasificados. Por último podemos mencionar que es importante la evaluación frecuente de los modelos mediante pruebas exhaustivas y tests de intrusión para corregir posibles vulnerabilidades, así como también actualizar estos módulos frecuentemente para implementar las últimas correcciones de seguridad publicadas por los fabricantes. Entre la bibliografía recomendada podemos citar: Machine Learning and Security: Protecting Systems with Data and Algorithms, de Clarence Chio y David Freeman y Security Engineering: A Guide to Building Dependable Distributed Systems, de Ross J. Anderson.

Como no podía ser de otra manera, estas herramientas de inteligencia artificial ya se utilizan con fines maliciosos o bien dentro del marco de la seguridad ofensiva. Entre estas podemos mencionar las pruebas de invasión de redes informáticas mediante ataques total o parcialmente automatizados (con el uso de herramientas como PentestGPT9), el acceso a información general disponible en internet (también llamada “Open Source Intelligence”) y/o la información contenida en bases de datos filtradas en invasiones de redes y sistemas informáticos que posteriormente fueron publicadas por grupos de piratas informáticos (como por ejemplo DarkGPT10). La creación de texto, audio, imágenes y videos con fines maliciosos, como por ejemplo ataques de phishing mejorados, entre muchos otros, también pueden incluirse dentro de esta categoría11.

Es tal la complejidad que agregan estas nuevas herramientas de inteligencia artificial que la conclusión a la que podemos llegar es que las vulnerabilidades introducidas por la inteligencia artificial serán cada día más complejas y las explotaciones que aparecerán con el correr del tiempo serán cada vez más sofisticadas, y pasarán a formar parte de la superficie de ataque de los sistemas que estén total o parcialmente expuestos a potenciales adversarios.

De la misma forma que lo es hoy en día, la criptografía será la gran aliada de la seguridad de la información, protegiendo los datos confidenciales incluso de los módulos de inteligencia artificial y el acceso indebido a bancos de datos e información restringida a los que se pueda acceder para cualquier finalidad (sea legítima o maliciosa).

Los ejemplos discutidos en este artículo subrayan la urgencia de adoptar medidas de seguridad robustas y avanzadas. La ciberseguridad en la IA no solo implica proteger contra vulnerabilidades conocidas, sino también anticipar nuevas formas de ataques que aún no hemos visto. La implementación de prácticas recomendadas como la validación rigurosa de los datos de entrada, la monitorización continua de los modelos de IA, la correcta utilización de criptografía y la actualización frecuente de los sistemas para incluir las últimas correcciones de seguridad son esenciales para proteger nuestros activos digitales. Además, la educación continua en ciberseguridad, especialmente en lo que respecta a las nuevas tecnologías de IA, es fundamental para preparar a los profesionales para defenderse contra los ataques futuros, en los cuales la inteligencia artificial será un componente cada vez más frecuente e importante.





Notas:

1) https://www.independent.co.uk/tech/chatgpt-microsoft-windows-11-grandma-exploit-b2360213.html
2) https://arstechnica.com/information-technology/2023/10/sob-story-about-dead-grandma-tricks-microsoft-ai-into-solving-captcha/
3) https://arxiv.org/abs/2012.07805
4) https://news.mit.edu/2018/study-finds-gender-skin-type-bias-artificial-intelligence-systems-0212
5) https://www.researchgate.net/publication/318671233_Synthesizing_Robust_Adversarial_Examples
6) https://sites.google.com/view/compromptmized
7) https://en.wikipedia.org/wiki/Creeper_and_Reaper
8) https://www.reuters.com/technology/google-restricts-ai-chatbot-gemini-answering-queries-global-elections-2024-03-12/
9) https://arxiv.org/abs/2308.06782
10) https://github.com/luijait/DarkGPT
11) https://securityintelligence.com/articles/now-social-engineering-attackers-have-ai-b/

Autorxs


Leonardo Nicolás Servalli:

Ingeniero en Sistemas de Información por la Universidad Tecnológica Nacional (Facultad Regional Buenos Aires). Exmiembro e investigador del Grupo de Inteligencia Artificial y Robótica de la UTN.