Principaux renseignements
- Les chercheurs de Mindgard ont contourné les filtres de ChatGPT pour générer des images violentes et explicites.
- De légères modifications des invites permettent systématiquement de contourner les mesures de sécurité d’OpenAI.
- L’IA ne dispose pas de boussole morale, ce qui crée un éternel « jeu du chat et de la souris » pour les experts en sécurité.
Des experts en sécurité de la société britannique Mindgard ont découvert que la version actuelle de ChatGPT pouvait être manipulée pour produire des images violentes et sexuellement explicites. En modifiant légèrement une consigne courante initialement destinée à faire de l’humour, les chercheurs ont réussi à contourner les restrictions du système. OpenAI a déclaré avoir depuis mis en place de nouvelles mesures de sécurité pour bloquer ce type de demandes. Cependant, les chercheurs affirment que de légers ajustements apportés aux consignes peuvent encore tromper l’IA. Ainsi, l’IA peut être amenée à générer du contenu perturbant. BBC rapporte ça.
Une opération de « red-teaming » met au jour des contenus choquants
Ces découvertes ont été faites dans le cadre d’une opération de « red-teaming ». C’est un processus au cours duquel des spécialistes tentent délibérément d’enfreindre les règles d’une IA. Ce processus vise à aider les développeurs à corriger les vulnérabilités. Jim Nightingale, chercheur chez Mindgard, a qualifié les images générées de profondément bouleversantes. Il citait des exemples de scènes gores, de violences sexuelles et de scènes de contention. Certaines images montraient des victimes couvertes de sang ou des personnes en situation de captivité. À ces images, l’IA avait attribué des titres descriptifs et sinistres.
De plus, l’équipe a constaté que le bot pouvait toujours être manipulé. Il pouvait créer des deepfakes de nus représentant de vraies personnes. Cela s’est produit malgré les affirmations d’OpenAI selon lesquelles ce problème avait été résolu.
Le danger des invites imprévisibles
Selon Peter Garraghan, fondateur de Mindgard et professeur à l’université de Lancaster, l’aspect le plus alarmant est que l’IA a produit ce matériel explicite sans qu’on lui ait donné d’instructions spécifiques sur le sujet. Il a souligné qu’une consigne apparemment inoffensive pouvait conduire à la création d’images hautement inappropriées.
Nightingale a suggéré que ces résultats reflétaient les énormes ensembles de données extraits d’Internet et utilisés pour entraîner les modèles. Il établissait ainsi un lien entre les images artificielles et les contenus préjudiciables du monde réel.
La lutte pour des garde-fous éthiques
OpenAI affirme recourir à une combinaison de supervision humaine et de filtres automatisés pour empêcher la génération de contenus enfreignant ses conditions d’utilisation. Ils interdisent expressément l’érotisme et les scènes de violence extrême. Cependant, des experts tels que le Dr. Rumman Chowdhury, de Humane Intelligence, affirment que sécuriser pleinement l’IA est un combat de longue haleine.
Elle décrit la situation comme un « jeu du chat et de la souris », expliquant que l’IA ne dispose pas de la compréhension humaine de la moralité, de l’intention ou du contexte, ce qui rend difficile l’application de limites éthiques nuancées.
Une vulnérabilité généralisée dans le secteur
Cette vulnérabilité n’est pas propre à une seule plateforme. L’AI Security Institute britannique a précédemment signalé avoir découvert des « jailbreaks » dans tous les systèmes d’IA qu’il a testés. Ça permettait aux utilisateurs de contourner les protocoles de sécurité. Bien que le gouvernement britannique reconnaisse que les protections s’améliorent, il souligne qu’il reste encore beaucoup à faire pour garantir la sécurité de ces modèles avant leur déploiement auprès du grand public.
(mv)(fc)
Suivez également Business AM sur Google Actualités
Si vous souhaitez accéder à tous les articles, abonnez-vous ici !

