La recherche d’Apple révèle les limites des modèles d’IA de pointe


Principaux renseignements

  • Les grands modèles de raisonnement (LRM) voient leur précision s’effondrer lorsqu’ils sont confrontés à des défis très complexes.
  • Les modèles d’IA standard sont plus performants que les MLT dans les tâches peu complexes, mais les deux types de modèles s’affaiblissent considérablement lorsqu’ils sont confrontés à des tâches très complexes.
  • Les systèmes d’IA actuels présentent des inefficacités et des limites fondamentales dans leurs capacités de raisonnement.

Une nouvelle étude d’Apple montre que même les modèles les plus puissants ont de grandes faiblesses. Les grands modèles de raisonnement (LRM), conçus pour résoudre des problèmes complexes étape par étape, échouent face aux tâches très difficiles. Leur précision s’effondre complètement.

De façon surprenante, les modèles standards réussissent mieux sur des tâches simples. Mais dès que la difficulté augmente, les deux types de modèles s’effondrent. Pire encore, les LRM réduisent leurs efforts de raisonnement au moment où les problèmes deviennent plus durs.

Les capacités de l’IA peuvent être limitées

Gary Marcus, expert critique de l’IA, juge ces résultats « assez dévastateurs ». Selon lui, ils remettent en question l’idée d’une intelligence artificielle générale (AGI), capable d’égaler l’humain dans tous les domaines. Il pense aussi que s’appuyer uniquement sur les grands modèles de langage comme ChatGPT ne mènera pas à une AGI véritable.

L’étude met en lumière d’importantes inefficacités. Les modèles gaspillent des ressources sur des tâches simples qu’ils résolvent rapidement. Quand la difficulté augmente un peu, ils testent d’abord de mauvaises pistes avant de trouver la bonne solution. Et face à des tâches très complexes, ils échouent totalement.

Même quand on leur fournit un algorithme fiable, les modèles ne réussissent pas. Ce comportement surprenant révèle une limite profonde dans leurs capacités de raisonnement. Les chercheurs pensent que l’approche actuelle du développement de l’IA a peut-être atteint son plafond. Ils doutent que les LRM puissent facilement généraliser leurs raisonnements à d’autres contextes.

Demande d’applications alternatives de l’IA

Les chercheurs ont testé plusieurs LRM de pointe : o3 d’OpenAI, Gemini Thinking de Google, Claude 3.7 Sonnet-Thinking d’Anthropic, et DeepSeek-R1. Ils ont utilisé des énigmes comme la Tour de Hanoï et la traversée de rivière. Mais ils reconnaissent que cette méthode reste limitée.

Andrew Rogoyski, de l’Institute for People-Centred AI à l’Université du Surrey, voit dans cette étude un signal d’alerte. Selon lui, le secteur de l’IA avance à tâtons vers l’AGI. Il pense que l’approche actuelle pourrait être dans une impasse, et appelle à explorer d’autres directions.

Si vous souhaitez accéder à tous les articles, abonnez-vous ici!

Plus