Principaux renseignements
- Les grands modèles de langage (LLM) peuvent être utilisés pour générer de nombreuses variantes de code JavaScript malveillant.
- Les attaquants peuvent s’appuyer sur les LLM pour modifier ou masquer les logiciels malveillants existants, échappant ainsi aux méthodes de détection traditionnelles.
- Cette réécriture constante des variantes de logiciels malveillants pourrait potentiellement dégrader les performances des systèmes de classification des logiciels malveillants.
Les chercheurs ont découvert que les grands modèles de langage (large language models, LLM) peuvent être utilisés pour générer de nombreuses variantes de code JavaScript malveillant, ce qui complique l’identification par les systèmes de détection. Si les LLM peuvent difficilement créer des logiciels malveillants à partir de zéro, les cybercriminels peuvent les utiliser pour modifier ou masquer des logiciels malveillants existants, échappant ainsi aux méthodes de détection traditionnelles.
En demandant aux LLM des transformations spécifiques, les attaquants peuvent produire de nouvelles variantes de logiciels malveillants qui paraissent plus naturelles et moins suspectes aux yeux des logiciels de sécurité. Au fil du temps, cette réécriture constante pourrait potentiellement dégrader les performances des systèmes de classification des logiciels malveillants, les amenant à identifier à tort des codes malveillants comme étant bénins.
WormGPT et la génération de logiciels malveillants
Malgré les efforts déployés par les fournisseurs de LLM pour mettre en œuvre des mesures de sécurité et prévenir les abus, les acteurs malveillants ont développé des outils tels que WormGPT pour automatiser le processus de création de courriels d’hameçonnage convaincants adaptés à des cibles spécifiques et même pour générer de nouveaux logiciels malveillants. Cette technique consiste à réécrire à plusieurs reprises des échantillons de logiciels malveillants existants en utilisant diverses méthodes telles que le renommage de variables, le fractionnement de chaînes et la réimplémentation de code.
Chaque itération est réinjectée dans le système, ce qui donne une nouvelle variante qui conserve les fonctionnalités d’origine tout en réduisant souvent de manière significative son score de malveillance. Dans certains cas, ces variantes réécrites échappent même à la détection par d’autres analyseurs de logiciels malveillants lorsqu’elles sont téléchargées sur des plateformes telles que VirusTotal.
Avantages de l’obscurcissement basé sur LLM
L’obscurcissement basé sur le LLM présente plusieurs avantages par rapport aux méthodes traditionnelles. Elle produit un code d’apparence plus naturelle, ce qui la rend plus difficile à détecter par rapport aux techniques utilisées par des bibliothèques comme obfuscator.io. En outre, le volume de nouvelles variantes de logiciels malveillants générées par ce processus constitue un défi de taille pour les chercheurs et les développeurs en matière de sécurité.
Malgré ces défis, les chercheurs explorent également des moyens d’exploiter les LLM pour améliorer la robustesse des modèles ML. En utilisant des exemples adverses générés par les LLM comme données d’entraînement, ils visent à créer des systèmes plus résistants capables d’identifier et d’atténuer les menaces sophistiquées.
Si vous souhaitez accéder à tous les articles, abonnez-vous ici!