¡Cuidado! Los cibercriminales ya están atacando los modelos de inteligencia artificial

Ia Threat
Sin comentarios Facebook Twitter Flipboard E-mail
wilson-vega

Wilson Vega

Director

Debido a la vasta cantidad de información que procesan, y por su uso cada vez más frecuente en diversas industrias, los modelos de inteligencia artificial se convirtieron en activos valiosos y en un objetivo atractivo para los cibercriminales.

Es por eso que ESET, una firma especializada en detección proactiva de amenazas, elevó la alerta sobre una tendencia creciente de ataques a modelos de IA.

Según los expertos de la firma, los ataques van de robo de propiedad intelectual y filtrado de información -e incluso su manipulación para generar resultados sesgados- hasta la utilización de la infraestructura de IA para propósitos maliciosos como, por ejemplo, el uso de servidores comprometidos para comandar redes de bots o ataques similares.

Existen una gran variedad de ejemplos de vulneraciones a modelos de IA. Algunos muy destacados como el de Tay, de Microsoft, que en 2016 llevó a un chatbot de IA para aprender y replicar discursos de odio en menos de 24 horas. 

Por otro lado está el ataque a GPT-3/OpenAI, en el que se identificaron intentos de extracción de información confidencial de modelos de OpenAI, consultas o peticiones específicas que inducían a  revelar datos sensibles utilizados en su entrenamiento.

“Los ataques dirigidos ya han puesto foco en modelos de IA, su funcionamiento e infraestructura. La seguridad debe abordarse desde una perspectiva integral, protegiendo todas las capas del funcionamiento de esta tecnología, partiendo de datos de entrenamiento, implementación del modelo y luego posteriores fases de acceso o interacción con este”. --Fabiana Ramírez Cuenca, Investigadora de seguridad informática de ESET Latinoamérica.

Cómo funcionan los ataques

Para comprender cómo podría la IA ser objetivo de ataque, el equipo de investigación de ESET desgrana algunos de sus elementos básicos y sus vulnerabilidades.

Entre los aspectos más destacados se encuentran los datos, todos los modelos son alimentados con datos de entrenamiento que deben tener calidad y confiabilidad para garantizar el funcionamiento correcto de la tecnología. En teoría, un ciberatacante podría introducir datos maliciosos y de esa manera manipular el comportamiento o los ouputs del modelo.

Por otro lado, están las APIS (Application Programming Interface) que permitirían manipular el modelo o extraer información sensible. La estructura interna del modelo, o incluso sus algoritmos, podrían ser susceptibles a ataques adversariales.

Finalmente, más allá de los ataques al funcionamiento del modelo en sí, este se podría ver afectado en caso de que los servidores o bases de datos donde se almacene su información o se procese el modelo sean blanco de diversos ataques que interrumpan el sistema.

Principales modalidades

Una vez que se identifican elementos básicos, los expertos definieron las siguientes amenazas:

  • Data Poisoning (Envenenamiento de Datos): consiste en la manipulación de los datos de entrenamiento con el objetivo de alterar el comportamiento del modelo.
  • Ataques Adversariales: se generan inputs o entradas manipuladas de manera casi imperceptible para los humanos, que inducirán errores en el modelo. Por ejemplo, la manipulación de imágenes para hacer que un modelo de reconocimiento facial confunda identidades.
  • Control del Modelo y Explotación: los cibercriminales toman el control del modelo durante su producción aprovechándolo con distintos fines como ejecución de otros ataques. Por ejemplo, una denegación de servicio aprovechando para generar comando y control (C&C) e incluso mezclarlo con bots.
  • Model Inversion Attack (Inversión de Modelo): el objetivo es inferir y obtener información sensible a partir de las predicciones del modelo. Por ejemplo, en modelos que identifican datos faciales se podría llegar reconstruir los rostros originales tomando como base los resultados del modelo frente a ciertas peticiones.
  • Model Extraction Attack (Extracción de Modelo): En este tipo de ataque se envían diferentes consultas al modelo para luego analizar las salidas con el objeto de entender y reconstruir su estructura interna, así como su lógica. De esta manera se podría imitar o replicar un modelo sin necesidad de acceso directo al código fuente o datos de entrenamiento.
  • Ataque de Evasión (Evasion Attack): para el caso se modifican los inputs de los modelos con el fin de evadir detección de ciertas actividades o generar una clasificación errónea. Se ha utilizado en sistemas de detección de fraudes, por ejemplo, y en modelos de seguridad de tipo antimalware y firewalls basados en IA. Los atacantes utilizan códigos maliciosos que puedan generar que el modelo víctima clasifique un archivo como legítimo, por ejemplo, y esto mediante generación de inputs alterados de forma imperceptible.
  • Malware en Infraestructuras: fuera de ataques directos al modelo, estos están sujetos a que sus servidores sean infectados con diferentes clases de malware que pudiera interrumpir su operatividad, bloquearlos e incluso lograr filtrar información.
Inicio