ChatGPT a des tics de langage à cause du colonialisme numérique

L’utilisation de l’IA à grande échelle fait apparaitre de nouvelles tendances de langage — et fait ressortir certains mots surannés. L’utilisation de certains mots serait même devenue révélatrice de textes générés par ChatGPT, mais surtout de la façon dont il a été entrainé.

« Delve » n’est pas vraiment un mot anglais employé fréquemment. Il désigne le fait d’« atteindre quelque chose depuis une surface », ou d’« examiner quelque chose en détail, essayer de trouver des informations », d’après le dictionnaire de Cambridge. Pourtant, depuis 2023, son utilisation dans les articles de recherche scientifiques a été multipliée par 10, comme l’a remarqué l’expert en intelligence artificielle Jeremy Nguyen.

MYSTERY SOLVED!

Why does ChatGPT use the word "delve" so much? We've seen a 10x increase in the proportion of medical studies using the word "delve" from 2022 to 2024. But why?@alexhern at The Guardian might've just solved it. Thread below, complete with the trail of clues: pic.twitter.com/koXHxVBhWg
— Jeremy Nguyen ✍🏼 🚢 (@JeremyNguyenPhD) April 17, 2024

Pourquoi cette augmentation si subite et cocasse de l’utilisation du mot « delve » ? La réponse serait simple, selon le chercheur : ChatGPT. Le chatbot d’OpenAI serait massivement utilisé pour écrire les articles de recherches, racontait Jeremy Nguyen dans un post sur X (ex-Twitter). Mais « delve » n’est pas le seul mot inhabituel utilisé de manière disproportionnée par l’intelligence artificielle — et cela serait dû à la façon dont les chatbots sont entrainés.

ChatGPT développe ses propres tics de langage, inspirés par les travailleurs qui l’ont formé

Dans un article publié le 16 avril 2024, The Guardian explique que cette manie d’utiliser « delve » à tout-va n’est pas un hasard : « il s’agit plutôt d’un phénomène très réel, lié à la façon dont ChatGPT a été développé. » Comme les autres chatbot, ChatGPT s’appuie sur un modèle de langage pour fonctionner — et ce modèle lui-même a été entrainé à partir de gigantesques quantités de textes trouvés sur Internet. Ces textes ont ensuite été labellisés, et l’entrainement des IA sur ces modèles de langage supervisé par des humains.

Cependant, ces humains sont, la plupart du temps, des travailleurs précaires, des « petites mains de l’IA » travaillant à bas prix depuis le Kenya ou Madagascar pour étiqueter les données. Or, si « delve » est peu employé dans l’anglais britannique ou américain, au Nigeria, le mot « est beaucoup plus fréquemment utilisé dans l’anglais des affaires », note le Guardian. « Les personnes chargées de l’apprentissage des IA ont donc fourni des exemples utilisant leur langue, ce qui a permis d’obtenir un système d’IA qui écrit légèrement comme de l’anglais parlé en Afrique. »

Les IA utilisant le français sont, elles, habituellement entrainées par des travailleurs malgaches — et les résultats qu’elles produisent pourraient donc être influencées par leur façon de parler. Comme l’algospeech, cette façon de parler sur TikTok pour éviter la modération de l’algorithme, l’utilisation de ChatGPT crée une nouvelle façon de s’exprimer sortie tout droit de cette « colonisation numérique » : le « AI-ese », qui pourrait être traduit en français par l’« ialien ».

« Delve », comme dirait ChatGPT // Source : Numerama

Cet « ialien » est particulièrement remarquable, et l’article du Guardian et les remarques de Jeremy Nguyen n’ont donc pas étonné les habitués de l’IA. Dans un subreddit dédié à ChattGPT, les utilisateurs se sont amusé à partager les autres termes qui étaient, selon eux, indicateurs de phrases écrites par le chatbot. Parmi ceux qui sont le plus revenus, on peut noter « mysterious », « burgeoning », « demystify », « robust » et « safeguard ». Individuellement, aucun de ces mots n’est vraiment étonnant (à l’exception peut-être de bourgeoning, rarement employé au quotidien), c’est surtout l’utilisation combinée de ces termes qui est généralement signe d’une IA.

Il n’y a pas qu’en anglais que ChatGPT a des tics de langage. Les journalistes de Numerama utilisent quotidiennement l’IA afin de réaliser les résumés d’articles (qui sont disponibles avec l’abonnement Numerama Plus), et ont ainsi pu remarquer certains de ces « tics ». L’IA génère souvent des phrases très longues, avec un vocabulaire alambiqué, et elle a une propension fatigante à utiliser du participe présent. En générant le résumé pour cet article, ChatGPT a ainsi utilisé « décupler », « pratiques linguistiques »… mais pour une fois, pas de participe présent.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Toutes les infos sur ChatGPT

ChatGPT

Télécharger gratuitement