Attaques par empoisonnement de données

Attaque par empoisonnement de données: un nouveau vecteur d'attaque au sein de l'IA

Attaques par empoisonnement de données

Un nouveau vecteur d'attaque au sein de l'IA

Les récentes avancées dans le domaine des intelligences artificielles génératives d'images ont ouvert la voie à un monde de créativité sans précédent mais ne sont pas sans poser des enjeux juridiques ou de sécurité avancés.

Avec l'émergence des générateurs d'images alimentés par l'intelligence artificielle tels que DALL-E, MidJourney et Stable Diffusion, de nombreux artistes s'inquiètent de leur capacité à imiter leurs styles, permettant ainsi à d'autres de les imiter en saisissant simplement une description telle que "une peinture dans le style de Christopher Wool". Cet usage de l'exploitation massive d'images sur le web soulève en effet des questions juridiques en lien avec la propriété intellectuelle. En février 2023, Getty Images a attaqué les développeurs de la société Stability AI, l'éditeur de Stable Diffusion devant la Cour de Justice de Londres pour protéger ses droits d'auteur.

En réponse, un nouvel outil, dénommé Nightshade, a émergé, offrant aux artistes un moyen de préserver l'intégrité de leurs créations face à l'utilisation non autorisée de leurs œuvres dans les ensembles de données d'entraînement des IA. Cette nouvelle technologie permet aux artistes d'apporter des modifications invisibles aux pixels de leurs œuvres, perturbant de manière chaotique et imprévisible la fonction de "texte2image" des IA. Conçue pour "empoisonner les données" des IA génératives, elle rend les résultats inutiles voire déformés.

Glaze, un autre outil, vient masquer le style artistique d'un créateur pour éviter sa collecte. Glaze a été développé pour préserver le style personnel des artistes. En altérant finement les pixels des images, Glaze empêche les IA d'imiter le style artistique.

À mesure que la technologie évolue, il est probable qu'une course technologique se dessine entre les créateurs de ces outils de protection et les développeurs de grandes IA génératives.

Cependant, avec ces avancées prometteuses, se profile également un risque potentiel d'utilisation malveillante de la technique d'empoisonnement des données. Une attaque d'empoisonnement de l'intelligence artificielle se produit lorsque des données d'entraînement sont intentionnellement altérées, induisant des décisions erronées de la part du modèle d'IA. Ces altérations, souvent subtiles, créent des biais qui affectent les sorties et la prise de décision du modèle. Ainsi, l'attaquant cherche à manipuler le comportement du système d'IA selon ses propres intentions.

Comprendre les différents types d'attaques par empoisonnement de données de l'IA

Les attaquants ayant accès aux données d'entraînement peuvent ainsi corrompre un système d'IA. Il est donc primordial de comprendre ces différentes attaques.

💣 Attaques furtives: les attaquants introduisent des données incorrectement étiquetées ou malveillantes dans l'ensemble d'entraînement afin de perturber le comportement du modèle.

👉 Plus d'informations: Stealthy Poisoning Attack on Certified Robustness for NeurIPS 2020 | IBM Research.

💣 Empoisonnement par étiquetage: les attaquants insèrent des données erronées ou malveillantes dans l'ensemble d'entraînement afin d'influencer le comportement du modèle lors de l'inférence.

👉 Plus d'informations:[2002.11497] On the Effectiveness of Mitigating Data Poisoning Attacks with Gradient Shaping (arxiv.org)

💣 Empoisonnement des données d'entraînement: lors de l'empoisonnement des données d'entraînement, les attaquants altèrent une proportion importante des données d'entraînement afin d'influencer le processus d'apprentissage du modèle d'IA. Ces exemples trompeurs ou malveillants permettent à l'attaquant de biaiser la prise de décision du modèle en faveur d'un résultat spécifique.

👉 Plus d'informations: Mitigating Poisoning Attacks on Machine Learning Models | Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security

💣Attaque par inversion de modèle: une attaque d'inversion de modèle est une méthode utilisée par les attaquants pour déduire des informations sensibles à partir de modèles d'apprentissage automatique. L'attaquant utilise les prédictions du modèle et des informations auxiliaires pour reconstruire les données d'entrée d'origine. Ce type d'attaque est particulièrement préoccupant dans des scénarios où le modèle a été formé sur des données sensibles, telles que des dossiers médicaux ou des identifiants personnels.

Sauvegarde des modèles d'IA : Mise en œuvre de mesures de sécurité robustes et de techniques de prétraitement des données

Bien que les chercheurs soulignent qu'il faudrait un grand nombre d'échantillons altérés pour causer des dommages significatifs aux modèles d'IA, il est clair que des mesures de sécurité doivent être prises pour prévenir toute utilisation abusive de ces outils novateurs.

Des techniques de désinfection et de prétraitement des données doivent être mises en place pour filtrer les attaques potentielles et assurer l'intégrité des sources de données. Il convient d'utiliser des méthodes de détection des anomalies pour surveiller les données entrantes et repérer les schémas suspects.

Dans ce contexte, les architectures de modèles doivent également être conçues de manière robuste avec des défenses intégrées contre les entrées malveillantes. Il s'agit d'être en mesure de surveiller en permanence les performances des modèles, de rechercher des schémas anormaux indiquant une possible attaque de données.

Des mesures de sécurité strictes doivent être mises en place pour protéger les données d'entraînement contre les manipulations non autorisées et vérifier les entrées pour garantir l'intégrité des données et des sources.

L'utilisation d'environnements d'entraînement sécurisés et de protocoles de gestion du pipeline d'entraînement est essentielle pour garantir la résistance aux attaques. Par exemple, OpenAI fournit aux utilisateurs de l'API une liste des meilleures pratiques dans leur documentation.

La cybersécurité devient ainsi un enjeu majeur dans le monde de l'art et de l'IA, mettant en évidence la nécessité de développer des stratégies robustes pour se protéger des copies ou des attaques par empoisonnement de données.

Jean-François SCHOONHEERE
CEO & founder Stroople