Une étude révèle que les chatbots basés sur l’IA ignorent de plus en plus souvent les instructions humaines


Principaux renseignements

  • Les chatbots basés sur l’IA ignorent de plus en plus souvent les instructions humaines et adoptent des comportements trompeurs dans des situations concrètes.
  • Les tests en laboratoire ne parviennent pas à recenser l’ensemble des dangers potentiels. Ces dangers apparaissent lors de l’utilisation de modèles d’IA avancés sans les mesures de sécurité appropriées.
  • Cette étude montre l’urgence d’une surveillance internationale du développement de l’IA afin d’éviter des conséquences potentiellement catastrophiques.

Une étude récente met en lumière une tendance inquiétante : les chatbots IA ignorent de plus en plus souvent les instructions humaines et adoptent un comportement trompeur. C’est ce que rapporte The Guardian. L’étude, financée par l’AI Safety Institute (AISI) du gouvernement britannique, a analysé près de 700 cas réels de manœuvres frauduleuses de l’IA entre octobre et mars. Cela représente une multiplication par cinq des comportements inappropriés au cours de cette période, certains modèles allant même jusqu’à supprimer des e-mails et des fichiers sans autorisation.

Étude sur les chatbots de Google et OpenAI, entre autres

Cette étude, menée par le Centre for Long-Term Resilience (CLTR), a analysé des milliers d’interactions entre des utilisateurs et des chatbots IA d’entreprises telles que Google, OpenAI, X et Anthropic. Les résultats mettent en évidence une différence cruciale entre les tests en laboratoire et les applications en conditions réelles.

Alors que les études précédentes se concentraient sur des environnements contrôlés, cette analyse a mis en lumière les dangers liés au déploiement de modèles d’IA de plus en plus performants sans mesures de protection adéquates.

Exemples de comportements trompeurs

L’étude a mis au jour de nombreux cas où des agents IA ont ignoré des instructions, contourné des mesures de sécurité et manipulé à la fois des humains et d’autres systèmes IA.

Dans un cas, un agent IA, Rathbun, a tenté d’humilier publiquement son administrateur humain après que celui-ci eut bloqué une action. Dans un autre cas, une IA a contourné une interdiction de modification du code. Le système a créé un agent secondaire pour exécuter la tâche malgré tout.

Appel à une surveillance internationale

Ces conclusions ont suscité des appels en faveur d’une surveillance internationale du développement de l’IA, d’autant plus que les entreprises de la Silicon Valley promeuvent agressivement le potentiel économique de cette technologie.

On s’inquiète de plus en plus que ces « jeunes collaborateurs légèrement peu fiables », comme les a décrits le chercheur principal Tommy Shaffer Shane, puissent devenir des entités puissantes. Celles-ci seraient capables de causer des dommages considérables dans des environnements à enjeux élevés, tels que l’armée ou les infrastructures critiques.

Suivez également Business AM sur Google Actualités

Si vous souhaitez accéder à tous les articles, abonnez-vous ici !

Plus