Qwen2.5-Max : Une nouvelle ère dans la performance des grands modèles de langage

Qwen2.5-Max : Une nouvelle ère dans la performance des grands modèles de langage
Image by Tung Nguyen from Pixabay

Principaux renseignements

  • Qwen2.5-Max démontre des performances supérieures dans les tests de référence tels que Arena-Hard, LiveBench, LiveCodeBench et GPQA-Diamond.
  • Les modèles de base du modèle présentent des avantages significatifs dans la plupart des benchmarks, ce qui suggère des avancées supplémentaires grâce à des techniques de post-entraînement.
  • L’accès public à Qwen2.5-Max est désormais disponible via Qwen Chat, avec une API (qwen-max-2025-01-25) accessible via Alibaba Cloud Model Studio.

Avancées en matière d’IA

Le domaine de l’intelligence artificielle (IA) a connu un essor de la recherche explorant l’impact de la mise à l’échelle à la fois des données et de la taille du modèle sur les performances du modèle. Bien que cette tendance ait permis des avancées significatives, l’expérience pratique de la mise à l’échelle de modèles extrêmement volumineux, en particulier les modèles de mélange d’experts (MoE), reste limitée. Les récentes révélations concernant DeepSeek V3 ont mis en lumière des aspects cruciaux de ce processus de mise à l’échelle.

Développement de modèles MoE

Parallèlement, les chercheurs ont développé Qwen2.5-Max, un modèle de MoE à grande échelle entraîné sur plus de 20 000 milliards de jetons. Ce modèle a fait l’objet d’un perfectionnement par le biais d’un réglage fin supervisé (SFT) et d’un apprentissage par renforcement à partir de commentaires humains (RLHF). Les performances de Qwen2.5-Max sont évaluées par rapport aux principaux modèles, qu’ils soient propriétaires ou open source, sur un ensemble varié de points de référence. Il s’agit notamment d’évaluations de la compréhension des connaissances (MMLU-Pro), des capacités de codage (LiveCodeBench), des capacités générales (LiveBench) et des préférences humaines (Arena-Hard).

Analyse comparative des performances

Les premières comparaisons se concentrent sur les modèles d’instruction, qui sont conçus pour des applications en aval telles que les chatbots et la génération de code. Qwen2.5-Max démontre des performances supérieures à celles de DeepSeek V3 dans des benchmarks tels que Arena-Hard, LiveBench, LiveCodeBench et GPQA-Diamond, tout en affichant des résultats compétitifs dans MMLU-Pro. Pour comparer les modèles de base, l’évaluation prend en compte DeepSeek V3, Llama-3.1-405B (le plus grand modèle open source) et Qwen2.5-72B (un modèle open source de premier plan).

Orientations futures et projets de recherche

Les modèles de base de Qwen2.5-Max présentent des avantages significatifs sur la plupart des points de référence, ce qui suggère que de nouvelles avancées dans les techniques de post-entraînement propulseront la prochaine itération de Qwen2.5-Max vers de nouveaux sommets. L’accès public à Qwen2.5-Max est désormais disponible via Qwen Chat, ce qui permet aux utilisateurs d’interagir avec le modèle, d’explorer ses capacités et d’utiliser son API. L’API (qwen-max-2025-01-25) est accessible via Alibaba Cloud Model Studio, offrant des fonctionnalités compatibles avec l’OpenAI-API. Les futurs efforts de recherche continueront à se concentrer sur la mise à l’échelle des données et de la taille du modèle, en repoussant les limites de l’intelligence des grands modèles de langage grâce à des techniques innovantes. Cette recherche vise à améliorer les capacités de raisonnement et de réflexion, pour finalement permettre aux modèles de surpasser l’intelligence humaine et d’explorer des territoires inexplorés en matière de connaissance et de compréhension.

Si vous souhaitez accéder à tous les articles, abonnez-vous ici!

Plus
04:00