ChatGPT compte plus de 300 millions d’utilisateurs hebdomadaires et environ 3 milliards de visites en décembre 2024. Le chatbot a fait parler de lui pour ses particularités linguistiques, en utilisant des mots et des phrases beaucoup plus que dans le langage humain courant. Pour quelles raisons certains termes sont-ils surutilisés et quels sont les motifs derrière cette tendance ?
Les choix lexicaux de ChatGPT ne sont pas aléatoires, car derrière les réponses, il y a une mécanique complexe qui s’appuie sur un entraînement intensif et une adaptation humaine. Ce processus façonne son langage, qui peut être parfois inattendu. Parmi les mécanismes influents, le Renforcement par Feedback Humain (RLHF) occupe une place importante.
Les annotateurs affinent les réponses du modèle, mais leurs préférences linguistiques semblent laisser une empreinte spécifique.
Ainsi, certains termes ou expressions reviennent fréquemment, parfois dû aux usages régionaux. Avec la surexploitation de certaines tournures, la question se pose : s’agit-il d’une quête de précision ou d’un effet secondaire du processus d’apprentissage ?
L’impact du feedback humain sur les modèles de langage de ChatGPT
Les modèles de langage de ChatGPT sont entraînés avec divers ensembles de données textuelles, permettant de prédire les mots les plus probables dans une séquence. Par contre, un modèle de langage brut nécessite un affinage. Pour cela, une phase de perfectionnement (Renforcement par Feedback Humain) est importante.
Ceux qui participent à cette étape d’entraînement présentent des exemples dans le but d’aider le chatbot à perfectionner ses options. Cet appui humain permet d’ajuster le langage de ChatGPT, tout en introduisant des impacts spécifiques (surtout celles liées aux zones géographiques). Cet appui peut être réalisé par des experts en IA ou des linguistes sous contrat de portage salarial.
Cette influence géographique explique en partie l’usage excessif de certains termes. Si les pays anglophones africains surutilisent le terme « delve » (creuser), ce terme est moins utilisé par contre aux États-Unis. Cette caractéristique démontre comment la diversité linguistique et culturelle peut influencer le comportement d’un modèle d’IA.
La surutilisation de certains mots et expressions par ChatGPT
L’analyse du langage de ChatGPT révèle une surutilisation de certains termes, notamment :
- Des connecteurs, utilisés pour structurer ses réponses ;
- Des mots complexes, souvent présents dans les textes académiques et techniques.
Des connecteurs comme « donc », « cependant », « en outre », et « dorénavant » apparaissent fréquemment. S’ils renforcent la cohérence des phrases, ils peuvent parfois alourdir le style rédactionnel.
En ce qui concerne le vocabulaire, des termes techniques comme « exacerbant » ou « interopérabilité » peuvent être utilisés de manière régulière. Cette tendance peut s’expliquer par la diversité des sources ayant servi à l’entraînement du modèle, incluant les textes scientifiques et spécialisés. De plus, la présence d’experts rédigeant dans ces domaines peut influencer le modèle linguistique, orientant le langage selon les corpus analysés. Ces experts peuvent être sous contrat de portage salarial pour intervenir ponctuellement sur des projets d’analyse et de rédaction technique.
Dans une étude pour Medium, Jordan Gibbs a analysé les mots les plus générés par le chatbot, plusieurs éléments étonnants en ressortent. Bien que certains mots (« le », « de », « et ») dominent naturellement, d’autres termes sont utilisés de manière disproportionnée. Par exemple :
- « réinventé » (utilisé 1 033 fois plus que dans les textes humains) ;
- « bioluminescent » ;
- « verdoyant ».
Ces expressions apparaissent notamment dans un cadre descriptif ou scientifique, et leur fréquence excessive peut parfois rendre le texte artificiel.
Cet article vous a-t-il été utile ?
Note moyenne 0 / 5. Votants: 0