Le modèle o1 d’OpenAI vante une plus grande transparence

Businesspeople employ artificial intelligence (AI) in document management systems, online documentation databases, and digital file storage systems or software to efficiently archive firm data.
Table des matières

Le nouveau prototype d’OpenAI se distingue par ses capacités de raisonnement scientifique, bien qu’o1-mini dispose de moins de connaissances que o1-preview. o1 fonctionne grâce à une chaîne de pensées basée sur des tokens de raisonnement. Cependant, pour des raisons stratégiques, certains détails du processus de raisonnement sont cachés à l’utilisateur.

Pour l’instant, deux prototypes expérimentaux sont inclus dans l’offre. Un o1-preview, qui offre un avant-goût de o1, et o1-mini. Ils sont disponibles sur la plateforme ChatGPT et l’API. Ces large Language Model (LLM) utilisent un mécanisme de pensée enchaînée pour générer du texte. En d’autres termes, ils procèdent étape par étape.

Étant donné leurs caractéristiques uniques, ces modèles requièrent une approche différente en matière de formulation des prompts. Il n’est pas nécessaire de tourner autour du pot avec eux, c’est-à-dire venir au fait. L’ajout d’exemples dans les prompts (technique du few-shot) n’est pas systématiquement bénéfique et peut avoir un effet inverse.

Des modèles de langage conçus pour la science

Les modèles o1 se distinguent par leurs capacités de raisonnement scientifique. Comme le montrent les évaluations d’OpenAI. Ils sont illustrés par des benchmarks comme Codeforces, l’AIME, les Olympiades internationales de mathématiques et le GPQA diamond.

Par ailleurs, la culture générale de o1-mini est moins étendue que celle de o1-preview. Il est donc plus adapté aux tâches scientifiques (STEM), qu’il exécutera plus vite et à moindre coût. Un comparatif détaillé permettra de mieux appréhender les forces et les faiblesses de chaque modèle.

o1 peut réaliser des tâches complexes grâce à la chaîne de pensée. Il est capable de rédiger un essai sur la création des poisons au fil du temps et un script en langage Bash. Il peut calculer les racines d’un polynôme et le pH d’une solution. Le o1 donne également un avis médical et décode des messages.

OpenAI y enrichit en y intégrant deux nouveaux livres de référence. Le premier est consacré à la validation des informations médicales. Le second Le deuxième ouvrage traite la transformation de connaissances en actions pour agents.

La fonctionnalité d’appel de fonctions n’est pas encore accessible. Cette limitation s’applique également à :

  • Les images d’entrée ;
  • L’affichage en temps réel des réponses ;
  • Les logprobs ;
  • L’envoi de messages par le système ;
  • La définition personnalisée du format des réponses.

En fait, l’API chat du modèle est réservée au niveau 5. Il s’agit des utilisateurs ayant acquis 1 000 dollars minimum en crédits. Le plafond des requêtes est limité à vingt par minute.

o1 fonctionne avec des tokens de raisonnement

La chaîne de pensée d’o1 est caractérisée par des marqueurs distincts, appelés tokens de raisonnement. La pensée brute du modèle est transcrite à travers ces tokens. Selon les recommandations d’OpenAI, il est préférable de prévoir un budget initial de 25 000 minimum pour les premiers tests.

OpenAI a réussi à améliorer son modèle en réduisant la création de suggestions interdites (aussi bien que GPT-4o) et en gérant mieux les questions trompeuses. Il a également diminué les stéréotypes, mieux que GPT-4o. Il est recommandé de réaliser un test comparatif pour évaluer l’efficacité d’o1 dans différents contextes d’utilisation.

Pour s’adapter au mécanisme de raisonnement en chaîne, la limite maximale de tokens générés a été étendue à 64k pour le modèle o1 et à 32k pour le modèle GPT-4o, dans une fenêtre contextuelle totale de 64k pour o1.

Les tokens internes au processus de raisonnement, bien que cachés à l’utilisateur de l’API, sont comptabilisés dans la facturation. L’interface utilisateur de ChatGPT présente une version simplifiée de la chaîne de pensée, débarrassée des éléments non pertinents. Cette décision de masquer certaines informations a été prise par OpenAI à l’issue d’une analyse minutieuse de différents paramètres, parmi lesquels l’avantage compétitif et l’expérience utilisateur que cette technologie confère.

Un autre élément à considérer est le potentiel de surveillance amélioré. La chaîne de pensée du modèle o1 offre une transparence bien supérieure à celle des activations, qui étaient jusqu’à présent le principal moyen d’accéder aux processus mentaux latents du modèle. En fait, OpenAI s’est rendu compte qu’environ la moitié des mauvaises réponses était en fait des réponses fausses que le modèle semblait inventer intentionnellement. Plutôt que de vouloir tromper l’utilisateur, le modèle essayait juste de répondre à leurs questions.

Cet article vous a-t-il été utile ?

Note moyenne 0 / 5. Votants: 0

Plus d'actualités

Les clés pour rédiger du contenu qui convertit

L’UX Writing vise à guider l’utilisateur intuitivement. En choisissant les mots justes, en structurant les phrases et en adaptant le ton, le rédacteur UX crée une expérience utilisateur fluide et agréable. L’UX Writing, c’est bien plus que de simplement écrire.

Lire la suite »