Un outil, le LLM Checker, créé par la startup suisse LatticeFlow

Principaux renseignements

Le Large Language Model (LLM) Checker, développé par la startup suisse LatticeFlow, révèle les problèmes de conformité potentiels des principaux modèles d’intelligence artificielle.
Les modèles de plusieurs grandes entreprises technologiques ont obtenu des scores moyens de 0,75 ou plus dans l’évaluation de l’outil par rapport à la loi sur l’IA de l’UE.
Les principaux domaines dans lesquels les entreprises pourraient avoir besoin d’ajuster leurs modèles sont la production discriminatoire et le détournement d’invite, certains modèles ayant obtenu des scores aussi bas que 0,37 et 0,38 respectivement.

Un nouvel outil appelé Large Language Model (LLM) Checker, créé par la startup suisse LatticeFlow, a révélé des problèmes de conformité potentiels avec d’importants modèles d’intelligence artificielle développés par de grandes entreprises technologiques. Le vérificateur évalue ces modèles par rapport à l’AI Act de l’UE, un ensemble complet de réglementations visant à régir le développement et le déploiement de l’intelligence artificielle au sein de l’Union. Ceci est rapporté par Reuters.

L’outil attribue à chaque modèle une note comprise entre 0 et 1 en fonction de ses performances dans les différentes catégories définies dans la loi sur l’IA. Si plusieurs modèles, dont ceux d’Alibaba, d’Anthropic, d’OpenAI, de Meta et de Mistral, ont obtenu une note moyenne de 0,75 ou plus, l’outil de vérification a mis en évidence des domaines spécifiques dans lesquels les entreprises pourraient avoir besoin d’ajuster leurs modèles pour garantir une conformité totale.

Sorties discriminatoires et détournement rapide

Par exemple, la production discriminatoire, un défi persistant dans le développement de l’IA qui reflète les préjugés de la société, est apparue comme une préoccupation. Le modèle GPT-3.5 Turbo d’OpenAI a obtenu un score relativement faible de 0,46 dans cette catégorie, tandis que le modèle Qwen1.5 72B Chat d’Alibaba Cloud a obtenu un score encore plus faible de 0,37.

Le « prompt hijacking », une cyberattaque qui consiste à déguiser des messages malveillants en messages légitimes pour en extraire des informations sensibles, a également fait l’objet d’un examen minutieux. Le modèle Llama 2 13B Chat de Meta a obtenu un score de 0,42 dans cette catégorie, et le modèle Instruct 8x7B de Mistral un score de 0,38.

Conformité et préparations réglementaires

Notamment, l’Opus Claude 3 d’Anthropic, soutenu par Google, a obtenu le score moyen le plus élevé de 0,89 dans toutes les catégories testées. Le LLM Checker a été développé en collaboration avec des chercheurs de l’ETH Zurich et de l’INSAIT, dans le respect des principes énoncés dans la loi sur l’IA. LatticeFlow prévoit de rendre l’outil librement accessible en ligne, ce qui permettra aux développeurs d’évaluer la conformité de leurs modèles de manière proactive.

Petar Tsankov, PDG et cofondateur de LatticeFlow, a souligné que, bien que l’UE soit encore en train de finaliser des critères de conformité spécifiques, l’outil de vérification fournit des informations précieuses sur les lacunes potentielles des modèles existants. Il estime qu’en se concentrant sur l’optimisation de la conformité, les fournisseurs d’IA peuvent se préparer efficacement aux exigences réglementaires énoncées dans la loi sur l’IA.

Si vous souhaitez accéder à tous les articles, abonnez-vous ici!

L’outil LatticeFlow révèle des lacunes potentielles dans les principaux modèles d’IA de la Big Tech

Principaux renseignements

Sorties discriminatoires et détournement rapide

Conformité et préparations réglementaires

L’outil LatticeFlow révèle des lacunes potentielles dans les principaux modèles d’IA de la Big Tech

Le problème climatique de l’Europe avec les prévisions d’IA et la réalité

Novo Nordisk renforce sa présence en Inde et met l’intelligence artificielle au service de sa croissance

TikTok réduit ses effectifs au niveau mondial dans le cadre d’une initiative de modération de contenu basée sur l’IA

La Belgique occupe la 24e place dans le classement mondial de l’innovation ; les économies émergentes défient les leaders traditionnels

Vodafone et Google confirment une collaboration d’un milliard de livres pour l’IA et le cloud