La Chatbot Arena présente son évaluation concernant le classement des modèles d’IA en juin 2024

Factory Female Industrial Engineer working with Ai automation robot arms machine in intelligent factory industrial on real time monitoring system software.Digital future manufacture.
Table des matières

En collaboration avec Hugging Face, l’Université de Berkeley a développé un projet intéressant. Il s’agit de la Chatbot Arena, permettant d’effectuer diverses évaluations en basant sur des données concernant plusieurs modèles d’IA. Ces dernières ont permis d’avoir une vue d’ensemble concernant ces modèles et de classer les plus performants en juin 2024.

Dans le domaine en constante évolution de l’Intelligence artificielle, les modèles de langage jouent un rôle de plus en plus essentiel. Ils offrent des capacités de communication et de génération de texte de qualité. Pour suivre cette évolution, il importe de se tenir informé des modèles les plus performants et des tendances façonnant ce domaine.

En ce sens, la Chatbot Arena a été utilisée pour effectuer un classement de performance pour divers modèles, comme GPT-4o ou encore Claude 3.5 Sonnet. Pour les experts en IA, les développeurs ou de simples utilisateurs curieux de l’évolution technologique, ce panorama de juin 2024 fournira les informations et les analyses nécessaires pour naviguer dans ce secteur.

Un système de classement Elo

Soutenu par l’Université de Berkeley et Hugging Face, le projet « ChatBot Arena » évalue en temps réel les performances des modèles génératifs. En utilisant le système Elo, il permet d’examiner de façon concrète divers modèles de langage.

Il faut noter d’ailleurs que le système Elo est utilisé lors des compétitions de sport en ligne et d’échecs. En utilisant ainsi ce système de classement, les capacités des modèles sont adaptées en se basant sur leurs performances directes.

Un modèle se voit par contre accorder un repère de classement initial, celui-ci changeant selon ses propres performances lors de ses confrontations à d’autres modèles. Cette approche sert à pronostiquer les résultats des compétitions entre les agents conversationnels. Elle s’appuie sur les évaluations de plus d’un million d’utilisateurs. La comparaison est établie selon les réponses des modèles à des requêtes identiques.

Cette méthode permet d’obtenir des résultats neutres et objectifs des capacités de chaque modèle de langage. Elle diffère ainsi du niveau des évaluations généralement publiées par des développeurs. Il faut savoir que les utilisateurs comparent de manière anonyme les réponses de deux modèles à une même requête. Le but permet donc de déterminer lequel est le plus précis.

En guise de précision, la distinction de ce classement permet :

« […]de prédire l’issue du match, détaillent les concepteurs de la Chatbot Arena. Le système de notation Elo est approprié, étant donné que nous avons plusieurs modèles et que nous mettons en place des duels. »

Ce projet peut d’ailleurs revêtir une importance particulière dans le cadre de la reconversion professionnelle vers les professions technologiques, sachant que l’IA augmente en popularité.

Les détails sur le classement des modèles IA de juin 2024

GPT-4o maintient sa position en tête avec un score Elo de 1 287 depuis son introduction en mai, un outil accessible à tous les utilisateurs et développé par OpenAI. À la deuxième place, Claude 3.5 Sonnet, un nouveau modèle de langage d’Anthropic, a atteint un score de 1 272.

Les versions variées du modèle d’Intelligence artificielle Gemini de Google occupent respectivement les troisième, quatrième et cinquième places :

  • Gemini Advanced détient un score de 1 267 ;
  • Gemini 1.5 Pro 0514 à la quatrième place a enregistré un score de 1 263 ;
  • Gemini 1.5 Pro 0409 en cinquième position avec un score de 1 257.

En juin, GPT-4 Turbo d’OpenAI perd du terrain et se classe désormais sixième avec un score de 1 257. GPT-4 1106, un autre modèle d’OpenAI, se classe septième avec un score de 1 251. L’agent conversationnel Claude, propulsé par Claude 3 Opus, récemment déployé en Europe, recule à la huitième place avec un score de 1 248.

GPT-4 0124 se positionne neuvième avec un score de 1 246, tandis que le modèle chinois d’origine Yi Large maintient sa place dans le top 10, malgré une perte de trois positions, avec un score de 1 240.

Cette diversité de modèles montre le développement rapide du domaine de l’IA. De même, elle présente des opportunités croissantes de reconversion professionnelle vers des domaines technologiques en pleine expansion.

Cet article vous a-t-il été utile ?

Note moyenne 0 / 5. Votants: 0

Plus d'actualités

Les clés pour rédiger du contenu qui convertit

L’UX Writing vise à guider l’utilisateur intuitivement. En choisissant les mots justes, en structurant les phrases et en adaptant le ton, le rédacteur UX crée une expérience utilisateur fluide et agréable. L’UX Writing, c’est bien plus que de simplement écrire.

Lire la suite »