La Chatbot Arena présente son évaluation concernant le classement des modèles d’IA en juin 2024

Mariama Balde
juillet 8, 2024

En collaboration avec Hugging Face, l’Université de Berkeley a développé un projet intéressant. Il s’agit de la Chatbot Arena, permettant d’effectuer diverses évaluations en basant sur des données concernant plusieurs modèles d’IA. Ces dernières ont permis d’avoir une vue d’ensemble concernant ces modèles et de classer les plus performants en juin 2024.

Dans le domaine en constante évolution de l’Intelligence artificielle, les modèles de langage jouent un rôle de plus en plus essentiel. Ils offrent des capacités de communication et de génération de texte de qualité. Pour suivre cette évolution, il importe de se tenir informé des modèles les plus performants et des tendances façonnant ce domaine.

En ce sens, la Chatbot Arena a été utilisée pour effectuer un classement de performance pour divers modèles, comme GPT-4o ou encore Claude 3.5 Sonnet. Pour les experts en IA, les développeurs ou de simples utilisateurs curieux de l’évolution technologique, ce panorama de juin 2024 fournira les informations et les analyses nécessaires pour naviguer dans ce secteur.

Un système de classement Elo

Soutenu par l’Université de Berkeley et Hugging Face, le projet « ChatBot Arena » évalue en temps réel les performances des modèles génératifs. En utilisant le système Elo, il permet d’examiner de façon concrète divers modèles de langage.

Il faut noter d’ailleurs que le système Elo est utilisé lors des compétitions de sport en ligne et d’échecs. En utilisant ainsi ce système de classement, les capacités des modèles sont adaptées en se basant sur leurs performances directes.

Un modèle se voit par contre accorder un repère de classement initial, celui-ci changeant selon ses propres performances lors de ses confrontations à d’autres modèles. Cette approche sert à pronostiquer les résultats des compétitions entre les agents conversationnels. Elle s’appuie sur les évaluations de plus d’un million d’utilisateurs. La comparaison est établie selon les réponses des modèles à des requêtes identiques.

Cette méthode permet d’obtenir des résultats neutres et objectifs des capacités de chaque modèle de langage. Elle diffère ainsi du niveau des évaluations généralement publiées par des développeurs. Il faut savoir que les utilisateurs comparent de manière anonyme les réponses de deux modèles à une même requête. Le but permet donc de déterminer lequel est le plus précis.

En guise de précision, la distinction de ce classement permet :

« […]de prédire l’issue du match, détaillent les concepteurs de la Chatbot Arena. Le système de notation Elo est approprié, étant donné que nous avons plusieurs modèles et que nous mettons en place des duels. »

Ce projet peut d’ailleurs revêtir une importance particulière dans le cadre de la reconversion professionnelle vers les professions technologiques, sachant que l’IA augmente en popularité.

Les détails sur le classement des modèles IA de juin 2024

GPT-4o maintient sa position en tête avec un score Elo de 1 287 depuis son introduction en mai, un outil accessible à tous les utilisateurs et développé par OpenAI. À la deuxième place, Claude 3.5 Sonnet, un nouveau modèle de langage d’Anthropic, a atteint un score de 1 272.

Les versions variées du modèle d’Intelligence artificielle Gemini de Google occupent respectivement les troisième, quatrième et cinquième places :

Gemini Advanced détient un score de 1 267 ;
Gemini 1.5 Pro 0514 à la quatrième place a enregistré un score de 1 263 ;
Gemini 1.5 Pro 0409 en cinquième position avec un score de 1 257.

En juin, GPT-4 Turbo d’OpenAI perd du terrain et se classe désormais sixième avec un score de 1 257. GPT-4 1106, un autre modèle d’OpenAI, se classe septième avec un score de 1 251. L’agent conversationnel Claude, propulsé par Claude 3 Opus, récemment déployé en Europe, recule à la huitième place avec un score de 1 248.

GPT-4 0124 se positionne neuvième avec un score de 1 246, tandis que le modèle chinois d’origine Yi Large maintient sa place dans le top 10, malgré une perte de trois positions, avec un score de 1 240.

Cette diversité de modèles montre le développement rapide du domaine de l’IA. De même, elle présente des opportunités croissantes de reconversion professionnelle vers des domaines technologiques en pleine expansion.

Plus d'actualités

Microsoft redéfinit Windows pour une ère de résilience et d’agents intelligents

Microsoft initie une transformation majeure de son système d’exploitation Windows, visant à renforcer sa résilience et son intégration dans les architectures modernes. Cette stratégie implique de déplacer les outils de sécurité hors du noyau. Il s’agit d’une décision qui fait

30 juin 2025

L’IA générative redéfinit la réputation en ligne des marques

L’IA générative bouleverse la réputation des marques en ligne, car les internautes s’appuient de plus en plus sur ces systèmes pour s’informer. Malgré une opacité sur leurs sources et une part d’informations non vérifiées, la confiance des utilisateurs est forte.

27 juin 2025

Stairling s’engage à garantir un dispositif social intégral pour les chauffeurs VTC

Fondée en 2024, Stairling, jeune pousse innovante, s’engage à révolutionner le quotidien des chauffeurs VTC. L’entreprise ambitionne de garantir un dispositif social intégral, offrant une protection et une stabilité accrues à ces professionnels souvent précarisés, marquant une étape majeure dans

23 juin 2025

L’intégration de l’IA devient un impératif pour l’entreprise moderne

L’IA représente bien plus qu’un simple outil de productivité pour les entreprises ; elle est un moteur de transformation profonde des usages, des compétences et de l’identité même des organisations. Pour surmonter les appréhensions et assurer un déploiement systémique et

20 juin 2025

Grand Paris, les premières applications concrètes de l’IA se concrétisent

La Métropole du Grand Paris dévoile les premières applications concrètes de l’intelligence artificielle. Des projets comme IA-BTP Match ou IA-Aires de livraison transforment déjà la gestion urbaine et l’économie circulaire. Ces initiatives, lancées après l’adoption du concept ApproprIAtion Métropolitaine, visent

16 juin 2025

Google met fin aux données structurées peu utilisées pour épurer ses résultats

Google simplifie l’affichage de ses résultats de recherche en retirant certains formats de données structurées peu employés. Cette démarche, effective à partir du 13 juin 2025, vise à clarifier l’interface et à améliorer la lisibilité. La firme de Mountain View

13 juin 2025