Principaux renseignements
- Les modèles linguistiques d’IA actuels peinent à générer des listes précises de diagnostics potentiels, bien qu’ils fassent preuve d’une grande efficacité pour établir des diagnostics définitifs.
- Les chercheurs soulignent la nécessité d’une supervision humaine lors de l’utilisation de ces modèles en milieu clinique en raison de leurs limites dans le diagnostic précoce.
- Selon cette étude, l’IA est prometteuse, mais elle n’est pas encore en mesure d’égaler la capacité de raisonnement et le discernement complexes nécessaires à des soins de santé sûrs et efficaces.
Une étude récente publiée dans JAMA Network Open révèle que les modèles linguistiques d’IA actuels ne sont pas encore prêts à être utilisés sans supervision en milieu clinique. Des chercheurs du Mass General Brigham ont analysé 21 grands modèles linguistiques (LLM) différents, dont des versions avancées de Claude, DeepSeek, Gemini, ChatGPT et Grok.
Méthodologie d’évaluation
Ils ont utilisé un nouvel outil appelé PrIME-LLM pour évaluer la capacité des modèles à travers différentes étapes du raisonnement clinique : diagnostic initial, prescription d’examens, diagnostic final et planification du traitement. L’évaluation consistait à présenter aux modèles 29 scénarios cliniques standardisés, en leur fournissant progressivement des informations allant des données de base du patient aux résultats de l’examen physique et aux résultats de laboratoire.
Si les modèles ont fait preuve d’une grande précision pour établir les diagnostics définitifs, ils ont en revanche rencontré d’importantes difficultés à générer des diagnostics différentiels appropriés – une étape cruciale pour les professionnels de santé afin de distinguer des pathologies présentant des symptômes similaires. Dans plus de 80 pour cent des cas, les modèles n’ont pas réussi à produire une liste adéquate de diagnostics potentiels.
Limites du diagnostic précoce
L’auteure de l’étude, Arya Rao, souligne que cette évaluation par étapes va au-delà du simple traitement des LLM comme des candidats à un examen et les place dans un contexte clinique plus réaliste. Elle fait remarquer que ces modèles excellent dans l’établissement de diagnostics définitifs lorsqu’ils disposent d’informations complètes, mais qu’ils échouent lors des premières étapes d’un cas où les données sont limitées.
Malgré les améliorations observées dans les modèles optimisés pour le raisonnement et entre les différentes versions, l’étude conclut que les LLM disponibles sur le marché ne disposent toujours pas de l’intelligence nécessaire pour un déploiement sûr sans supervision humaine. L’auteur principal, Marc Succi, souligne ce point, affirmant que ces modèles ne sont pas encore capables de reproduire le processus complexe du diagnostic différentiel, qu’il considère comme « l’art de la médecine ».
La supervision humaine reste cruciale
Susana Manso García, membre du groupe de travail sur l’intelligence artificielle et la santé numérique qui n’a pas participé à l’étude, souligne l’importance du jugement clinique humain. Selon elle, l’IA offre des possibilités prometteuses, mais il ne faut pas s’y fier aveuglément pour prendre des décisions cliniques indépendantes. (fc)
Suivez également Business AM sur Google Actualités
Si vous souhaitez accéder à tous les articles, abonnez-vous ici !

