IA contre IA, on y est !

Des chercheurs en cybersécurité aux États-Unis ont mené une expérience où ils ont retourné une intelligence artificielle (IA) contre elle-même pour créer un ver informatique nommé Morris II, en référence au premier ver créé en 1988.

Ce ver cible les assistants de messagerie par IA génératives, les manipulant pour voler des données dans les e-mails et contaminer d’autres messageries. Il a été développé par des chercheurs de Cornell Tech à New York dans le but de mettre en évidence les risques associés aux écosystèmes d’IA connectés et autonomes.

 

Morris II peut être généré directement via des chatbots tels que ChatGPT ou Gemini en contournant les verrous de protection. Il se propage d’un système à l’autre en volant des données ou en déployant des logiciels malveillants, exploitant une invite de commande pour amener l’IA à ignorer ses propres règles de sécurité. Les chercheurs ont utilisé une « invite contradictoire à auto-réplication » pour développer ce ver, comparable à des attaques par injection SQL ou par débordement de tampon.

 

Pour démontrer le fonctionnement du ver, les chercheurs ont créé une messagerie assistée par une IA générative connectée à différents chatbots. Ils ont utilisé deux types d’invites pour manipuler les IA : une basée sur du texte et une intégrée dans un fichier image. Le ver a réussi à corrompre la base de données de l’assistant de messagerie en utilisant un procédé de « génération augmentée de récupération« , permettant d’augmenter les capacités de l’IA. La source malveillante a permis au ver de voler des données et de contaminer d’autres destinataires via les réponses générées par l’IA.

Les chercheurs soulignent que la conception architecturale des IA génératives est mal conçue, ce qui permet à des vers génératifs comme Morris II de fonctionner.

 

Ils ont partagé les détails de leurs recherches avec des entreprises comme OpenAI et Google. Ils estiment que sans mesures efficaces, ce type de ver pourrait se propager dans les deux à trois prochaines années.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *