Principaux renseignements
- La plupart des chatbots d’IA peuvent être facilement manipulés pour générer des contenus dangereux par le biais du « jailbreaking ».
- Des chercheurs ont mis au point des « jailbreaks » universels qui compromettent les principaux chatbots et leur permettent de répondre à des questions dangereuses.
- Les entreprises technologiques doivent prendre des mesures immédiates pour faire face à cette menace de sécurité en mettant en œuvre un contrôle plus strict des données de formation et des pare-feu robustes.
Les chatbots comme ChatGPT deviennent de plus en plus présents dans notre quotidien. C’est ce que rapporte The Guardian. Mais selon une nouvelle étude, ces outils, pourtant conçus avec des protections, restent étonnamment faciles à manipuler. Avec de simples instructions bien formulées, n’importe qui peut les amener à produire des contenus dangereux.
Des modèles puissants, mais exposés
Les modèles de langage comme ceux utilisés par ChatGPT se basent sur d’immenses bases de données tirées d’Internet. Ils apprennent ainsi à répondre à toutes sortes de questions. Problème : certaines données incluent des contenus illégaux ou sensibles, malgré les tentatives de filtrage.
Les chercheurs ont démontré que les protections intégrées ne suffisent pas. En utilisant ce qu’on appelle un jailbreak prompt — une demande spécifique contournant les règles — ils ont réussi à faire dire aux modèles ce qu’ils sont censés refuser. Pire encore, ils ont développé une commande universelle capable de tromper plusieurs IA à la fois.
Une menace sérieuse
Cette faille représente un danger réel. Les IA sont accessibles, puissantes et capables de générer des instructions détaillées, même pour des actes illégaux. Leur mauvaise utilisation pourrait faciliter la désinformation, la fraude ou des actes plus graves.
Face à ce constat, les chercheurs appellent les entreprises technologiques à réagir. Ils recommandent :
- de mieux filtrer les données d’apprentissage ;
- d’ajouter des pare-feux plus robustes ;
- d’utiliser des techniques d’oubli sélectif (machine unlearning) ;
- et de réguler les modèles dark LLM, créés sans garde-fous.
Une coopération urgente
Les experts en cybersécurité insistent : les entreprises doivent renforcer leurs tests et simuler des attaques (red teaming) pour repérer les failles. Elles doivent aussi créer des modèles de menace tenant compte des usages réels.
Des entreprises comme OpenAI ont déjà pris des mesures. Mais selon les chercheurs, cela ne suffit pas. Une collaboration sectorielle et une réglementation claire sont indispensables pour garantir une intelligence artificielle sûre et responsable.
Si vous souhaitez accéder à tous les articles, abonnez-vous ici!