Pourquoi détecter un texte de ChatGPT est-il si dur ?

Des outils promettent de dire si des textes ont été écrits par des humains ou par ChatGPT. Mais est-ce vraiment possible ? Entre les capacités toujours plus avancées des IA de génération de texte et les difficultés entourant les modèles de détections, il n’y a pas de réponse évidente.

Il y a des détails qui ne trompent pas, qui permettent à coup sûr de reconnaître les images créées par intelligence artificielle. Les photos d’humain générées par le site ThisPersonDoesNotExist ont des défauts au niveau des yeux, des oreilles, des dents et des lunettes qui permettent de les différencier des clichés de véritables personnes. Les vidéos de deepfake ont, elles, du mal à reproduire les humains de profils.

Pour ChatGPT, la tâche est bien plus ardue. Le chatbot développé par OpenAI utilise une intelligence artificielle très puissante, GPT-3, qui lui permet de générer des textes impressionnants de réalisme. Match de foot, recettes, examen d’université : ChatGPT arrive à écrire suffisamment bien pour, parfois, donner l’illusion qu’un humain pourrait avoir composé les textes. Ce réalisme a poussé la ville de New York à interdire l’IA dans ses écoles, et l’université française de Sciences Po a menacé de sanctions les élèves qui tricheraient avec ChatGPT.

Or, pour l’instant, il est souvent impossible pour les humains de dire qui a rédigé un texte. Certains logiciels sont en développement pour palier à ce problème — mais ce n’est pas sûr qu’il y ait, un jour, un outil véritablement infaillible.

Comment faire pour différencier un texte écrit par une IA du texte d’un humain ?

Les textes écrits par ChatGPT sont, la plupart du temps, indétectables par les humains. La construction des phrases est logique, les paragraphes sont sensés, les informations sont d’ordinaire justes (même s’il arrive à ChatGPT de mentir), l’orthographe et la grammaire sont irréprochables. Aucun détail suspicieux ne saute aux yeux, même pour les lecteurs les plus suspicieux.

Comment savoir si un texte a été écrit par une intelligence artificielle ? // Source : Dall E

Plusieurs outils ont déjà vu le jour en prétendant pouvoir faire la différence. Parmi les plus importants, on trouve :

GPTZero, qui a été développé par un étudiant de Princeton spécifiquement « pour les professeurs ». Le site permet de rentrer directement du texte ou de charger des textes.
DetectGPT, développé par l’université de Stanford, et qui fonctionne surtout sur GPT-2, la version antérieure à GPT-3 (à ne pas confondre avec l’extension DetectGPT disponible sur Google Chrome, qui ne précise pas son origine)
AI Text Classifier, développé par OpenAI, l’entreprise à l’origine de ChatGPT, et qui permet de dire si un texte a été écrit par ce dernier.

Des outils qui ne marchent pas encore complètement

Ces aides sont encore loin d’être convaincantes. « GPTZero marche bien en anglais, mais pas trop en français », nous indique Giada Pistilli, éthicienne pour l’entreprise spécialisée dans l’apprentissage automatique et l’IA Hugging Face. La même conclusion s’applique pour les textes écrits par IA, mais modifiés à postériori par un humain. « Il ne détecte pas tout, ce n’est pas un outil toujours performant. D’ailleurs, GPTZero dit que ses résultats sont probables, pas qu’ils sont sûrs ».

Même chose pour les deux autres outils : les résultats sont plutôt bons en anglais, mais manquent de précision pour les autres langues. DetectGPT n’a pas reconnu notre article écrit par ChatGPT, et AI Text Classifier a, à l’inverse, cru qu’un texte écrit par mes soins avait « probablement » été écrit par une intelligence artificielle.

Pourtant, ils utilisent tous une méthode de détection différente : GPTZero analyserait la « perplexité » d’un texte (la variable de « hasard » détectée dans un texte), DetectGPT utilise la « courbure locale de la fonction de probabilité logarithmique du modèle », et AI Text Classifier utilise une intelligence artificielle, elle-même entraînée pour déterminer si un texte était écrit par une IA. Peu importe la méthodologie, il n’existe donc pas pour l’instant de solution infaillible.

Le développement d’un watermark pour les IA

Une autre piste est actuellement étudiée pour permettre une authentification fiable dans le futur : l’implantation d’un « watermark » dans les textes. Ce filigrane fonctionnerait en « insérant des tokens de manière aléatoire dans les textes écrits par IA », souligne Giada Pistilli.

Grossièrement, « ces tokens correspondent à façon que la machine a de découper une phrase », et seraient donc appliqués à l’architecture même du langage de l’IA. « Ces tokens seront détectables par d’autres machines », mais ils resteraient « invisibles à l’œil humain ». L’implantation d’un watermark permettrait même de détecter des textes écrits par IA modifiés à postériori par des humains, selon Giada.

Les outils permettant de savoir si un texte a été écrit par IA ne sont pas performants // Source : Dall E — Les outils permettant de savoir si un texte a été écrit par IA ne sont pas performants

La technique du watermark a été décrite dans un papier de recherche en intelligence artificielle, et plusieurs entreprises pourraient être intéressées par la méthode. Mais la technique reste pour l’instant loin d’être déployée à grande échelle. « L’implantation d’un watermark visuel est très facile », explique Giada, en faisant notamment référence au filigrane apparaissant sur les images créées par Dall E, « mais sur un texte, la question est encore ouverte.»

Comment appliquer cela aux écoles ?

Devant ces tests peu concluants, une question reste : comment faire pour interdire une technologie indétectable ? Comment des professeurs pourraient-ils réussir à dire quels devoirs sont écrits par des élèves, et lesquels sont écrits par IA ? Sciences Po, interrogé par Numerama, explique qu’ils « font confiance aux étudiants ».

« Ils sont là pour l’ouverture d’esprit, et puis il y a beaucoup de devoirs sur table surveillés en présentiel », rappelle l’école. Même si aucun outil n’est pour l’instant utilisé officiellement au sein de l’institut, « nos enseignants connaissent les étudiants, et ils savent comment ils s’organisent, ils savent de quoi ils sont capables ». En attendant le développement de nouveaux outils, connaître les étudiants resterait donc la seule technique disponible pour les professeurs.

Selon Sciences Po, il n’y aurait pas encore eu de cas de plagiat ou d’utilisation connue de ChatGPT par les élèves, et la décision d’interdire son utilisation aurait été prise de manière préventive. Mais dans d’autres établissements, certains étudiants ont déjà sauté le pas. À Lyon, des étudiants se sont déjà servis de l’IA pour rédiger un devoir.

« Il va devoir y avoir un mélange entre les outils », estime Giada. « Je pense que les solutions techniques ne suffiront pas toujours, surtout que les humains sont imprévisibles. Même avec des watermarks, cela va être compliqué, et ça ne m’étonnerait pas de voir des étudiants développer des techniques pour détourner les détecteurs. »

Comment les intelligences articielles seront-elles utilisées dans les écoles ? // Source : Dalle E

Il y a le risque inverse à prendre en compte. Que faire si les outils de détection se trompent, et indiquent que des textes écrits par des humains ont été générés par des IA ? OpenAI, l’entreprise à l’origine de l’outil de détection AI Text Classifer, affirme que les faux positifs n’arrivent que « 9% du temps ». Malgré tout, en tant que journaliste à Numerama, j’ai déjà pu en faire l’expérience. L’outil n’a jamais expliqué sa conclusion, et n’a pas souligné de passages particulièrement incriminants dans mon texte.

Heureusement, cela n’a pas eu d’impact sur mon travail : l’expérience a juste prouvé que l’outil n’était pas encore totalement au point. Mais, si j’avais été étudiante, que se serait-il passé ? Aurais-je pu être exclue de Sciences Po sur la foi d’une intelligence artificielle ? Il n’y a pas de réponse pour l’instant — et c’est surement cela le plus inquiétant.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Tout comprendre à La guerre de l’IA

ChatGPT

Télécharger gratuitement