Alors qu’elle essayait de prouver qu’elle était encore dans le coup en matière d’IA, l’entreprise de Mark Zuckerberg a vu le code de son modèle de langage divulgué en ligne. Une situation bien évidemment désolante pour Meta, mais qui pourrait également représenter des risques pour les internautes.
Zoom arrière : fin février, Meta annonçait son dernier modèle de langage destiné aux intelligences artificielles, LLaMA (Large Language Model Meta AI). Une création qui n’est pas destinée au grand public comme ChatGPT d’OpenAI, puisqu’il ne s’agit pas d’un chatbot, mais d’un outil de recherche que Meta partage dans l’espoir de faire avancer le domaine de l’intelligence artificielle.
- En d’autres termes, la création de Meta vise à « aider les experts à identifier les problèmes liés aux modèles de langage, qu’il s’agisse de biais, de toxicité ou de leur tendance à inventer des informations », comme le traduit si bien The Verge.
- Il se rapproche de GPT-3, le modèle de langage qui permet à ChatGPT de fonctionner et de LaMDA, celui qui alimente Bard, le chatbot de Google.
L’actualité : une semaine après son annonce, Meta a vu le code de son modèle de langage fuiter en ligne, alors que le géant du web commençait seulement à répondre aux demandes d’accès à LLaMA.
- « Alors que le modèle [LLaMA] n’est pas accessible à tous… certains ont essayé de contourner le processus d’approbation », a indiqué le principal intéressé, aveu à peine voilé de la fuite.
Le détail : un fichier contenant son code a en effet été publié sur le site 4Chan et s’est rapidement répandu dans diverses communautés d’IA, rapporte le média américain.
- Cette fuite a d’ailleurs suscité un débat sur la bonne façon de partager la recherche de pointe puisque Meta propose en réalité le package LLaMA en open source, mais uniquement sur demande.
Un risque pour les internautes ?
Cette fuite n’a pas manqué de faire réagir dans le milieu. Et le moins que l’on puisse dire est que les avis divergent.
- En plus des critiques adressées à Meta pour le laxisme dont la firme a fait preuve en permettant la fuite de son puissant langage d’IA (65 milliards de paramètres, soit le tiers de GPT-3), certains s’inquiètent des conséquences que cela pourrait entrainer.
- « Préparez-vous à de nombreuses tentatives de spam et de phishing personnalisées », a mis en garde le chercheur en cybersécurité Jeffrey Ladish sur Twitter. « L’open sourcing de ces modèles était une très mauvaise idée. »
- D’autres se montrent beaucoup moins pessimistes et rappellent par ailleurs que d’autres modèles de langage tout aussi complexes ont déjà été rendus publics par le passé sans causer de préjudice significatif.
- Proposer des modèles de langages en open source est nécessaire pour développer des garanties dans ce domaine, soulignent-ils.
À noter : exploiter cette fuite à des fins malveillantes n’est pas chose aisée pour le commun des mortels puisque des connaissances poussées sont nécessaires pour appréhender le fichier et en faire quelque chose.
- Le gros du travail a été fait, mais il manque une partie essentielle pour en tirer vraiment profit.
- Autrement dit, si exploitation malveillante il y a, il s’agira d’un travail particulièrement poussé.
- On ne connait malheureusement pas l’étendue potentielle du risque encouru par la divulgation de ce code.
Une chose est sûre, si l’intelligence artificielle est la nouvelle tendance à la mode dans le secteur de la tech et que les premières démonstrations se sont révélées (parfois) impressionnantes, le sujet présente encore aujourd’hui bien des lacunes.