La Chatbot Arena présente son évaluation concernant le classement des modèles d’IA en juin 2024

Mariama Balde
juillet 8, 2024

En collaboration avec Hugging Face, l’Université de Berkeley a développé un projet intéressant. Il s’agit de la Chatbot Arena, permettant d’effectuer diverses évaluations en basant sur des données concernant plusieurs modèles d’IA. Ces dernières ont permis d’avoir une vue d’ensemble concernant ces modèles et de classer les plus performants en juin 2024.

Dans le domaine en constante évolution de l’Intelligence artificielle, les modèles de langage jouent un rôle de plus en plus essentiel. Ils offrent des capacités de communication et de génération de texte de qualité. Pour suivre cette évolution, il importe de se tenir informé des modèles les plus performants et des tendances façonnant ce domaine.

En ce sens, la Chatbot Arena a été utilisée pour effectuer un classement de performance pour divers modèles, comme GPT-4o ou encore Claude 3.5 Sonnet. Pour les experts en IA, les développeurs ou de simples utilisateurs curieux de l’évolution technologique, ce panorama de juin 2024 fournira les informations et les analyses nécessaires pour naviguer dans ce secteur.

Un système de classement Elo

Soutenu par l’Université de Berkeley et Hugging Face, le projet « ChatBot Arena » évalue en temps réel les performances des modèles génératifs. En utilisant le système Elo, il permet d’examiner de façon concrète divers modèles de langage.

Il faut noter d’ailleurs que le système Elo est utilisé lors des compétitions de sport en ligne et d’échecs. En utilisant ainsi ce système de classement, les capacités des modèles sont adaptées en se basant sur leurs performances directes.

Un modèle se voit par contre accorder un repère de classement initial, celui-ci changeant selon ses propres performances lors de ses confrontations à d’autres modèles. Cette approche sert à pronostiquer les résultats des compétitions entre les agents conversationnels. Elle s’appuie sur les évaluations de plus d’un million d’utilisateurs. La comparaison est établie selon les réponses des modèles à des requêtes identiques.

Cette méthode permet d’obtenir des résultats neutres et objectifs des capacités de chaque modèle de langage. Elle diffère ainsi du niveau des évaluations généralement publiées par des développeurs. Il faut savoir que les utilisateurs comparent de manière anonyme les réponses de deux modèles à une même requête. Le but permet donc de déterminer lequel est le plus précis.

En guise de précision, la distinction de ce classement permet :

« […]de prédire l’issue du match, détaillent les concepteurs de la Chatbot Arena. Le système de notation Elo est approprié, étant donné que nous avons plusieurs modèles et que nous mettons en place des duels. »

Ce projet peut d’ailleurs revêtir une importance particulière dans le cadre de la reconversion professionnelle vers les professions technologiques, sachant que l’IA augmente en popularité.

Les détails sur le classement des modèles IA de juin 2024

GPT-4o maintient sa position en tête avec un score Elo de 1 287 depuis son introduction en mai, un outil accessible à tous les utilisateurs et développé par OpenAI. À la deuxième place, Claude 3.5 Sonnet, un nouveau modèle de langage d’Anthropic, a atteint un score de 1 272.

Les versions variées du modèle d’Intelligence artificielle Gemini de Google occupent respectivement les troisième, quatrième et cinquième places :

Gemini Advanced détient un score de 1 267 ;
Gemini 1.5 Pro 0514 à la quatrième place a enregistré un score de 1 263 ;
Gemini 1.5 Pro 0409 en cinquième position avec un score de 1 257.

En juin, GPT-4 Turbo d’OpenAI perd du terrain et se classe désormais sixième avec un score de 1 257. GPT-4 1106, un autre modèle d’OpenAI, se classe septième avec un score de 1 251. L’agent conversationnel Claude, propulsé par Claude 3 Opus, récemment déployé en Europe, recule à la huitième place avec un score de 1 248.

GPT-4 0124 se positionne neuvième avec un score de 1 246, tandis que le modèle chinois d’origine Yi Large maintient sa place dans le top 10, malgré une perte de trois positions, avec un score de 1 240.

Cette diversité de modèles montre le développement rapide du domaine de l’IA. De même, elle présente des opportunités croissantes de reconversion professionnelle vers des domaines technologiques en pleine expansion.

Plus d'actualités

Meta dévoile ses conseils afin de permettre une meilleure optimisation aux vidéos Reels

Les Reels occupent une place centrale dans les stratégies de diffusion sur Facebook et Instagram. Meta partage plusieurs recommandations pour améliorer leur visibilité, favoriser l’engagement et s’adapter aux logiques algorithmiques des plateformes. Formats, durée, son et narration visuelle font partie

30 janvier 2026

Microsoft transforme Azure avec les conteneurs serverless et une sécurité renforcée

Lors d’Ignite 2025, Mark Russinovich a détaillé les innovations logicielles d’Azure. Entre conteneurs serverless, virtualisation directe, sécurité renforcée et optimisation du réseau, Microsoft transforme sa plateforme pour faciliter le déploiement et la gestion des applications cloud natives. De ce fait,

27 janvier 2026

OpenAI offre enfin le contrôle total sur la tonalité de son agent conversationnel

OpenAI déploie de nouveaux réglages accessibles via l’onglet Personnalisation pour moduler le comportement de ChatGPT. Cette mise à jour majeure permet aux utilisateurs de définir précisément le niveau de chaleur, d’enthousiasme et la fréquence des émojis, répondant ainsi aux exigences

23 janvier 2026

Microsoft déploie de nouvelles capacités d’édition C++ pour GitHub Copilot dans Visual Studio

21 janvier 2026

Palo Alto Networks signe un contrat de dix milliards avec Google Cloud

Depuis 2018, Palo Alto Networks et Google Cloud collaborent étroitement, renforçant la migration de certaines charges de travail vers le cloud et le développement de services. D’ailleurs, Palo Alto Networks versera près de dix milliards de dollars à Google Cloud

19 janvier 2026

Amazon restructure sa division IA et place Peter DeSantis aux commandes

Le géant technologique opère un remaniement stratégique majeur en confiant la direction de son pôle intelligence artificielle à Peter DeSantis, architecte historique du cloud EC2. Cette réorganisation, qui inclut désormais les puces et le quantique, vise à accélérer le développement

16 janvier 2026