Les modèles d’OpenAI, et notamment GPT-4, sont entraînés sur de nombreux livres, protégés en partie par le droit d’auteur. Une équipe de chercheurs de l’Université de Berkeley livre ses premières conclusions.

Pour produire des résultats cohérents et précis, les intelligences artificielles passent par une phase d’apprentissage intense (deep learning). Au cours de cette étape, les ingénieurs en charge de l’IA fournissent des ressources textuelles diverses et complexes.

Ainsi, lorsqu’on interroge ChatGPT sur ses données d’entraînement, le chatbot assure avoir emmagasiné des articles de journaux, de nombreux sites web, des corpus de textes spécifiques (universitaire ou collaboratif notamment), des conversations réelles (apprentissage par renforcement) ou encore des livres.

Les modèles derrières ChatGPT sont entraînés sur divers corpus.  // Source : Capture d'écran
Les modèles derrière ChatGPT sont entraînés sur divers corpus. // Source : Capture d’écran

Pour mieux comprendre le processus d’apprentissage et ses conséquences sur les réponses générées par l’IA, une équipe de chercheurs de l’Université de Californie à Berkeley (Kent Chang, Mackenzie Cramer, Sandeep Soni, et David Bamman) ont étudié la liste probable des livres connus par ChatGPT et GPT-4.

« Nous avons découvert que les modèles d’OpenAI ont mémorisé une vaste collection de matériaux protégés par le droit d’auteur et que le degré de mémorisation est lié à la fréquence à laquelle des extraits de ces livres apparaissent sur le web », expliquent les universitaires au sein d’un article scientifique publié le 28 avril.

Des livres surreprésentés

Pour parvenir à cette conclusion, les scientifiques sont parvenus à identifier une liste de 572 livres crawlés par les modèles d’OpenAI. Des titres ensuite classés par précision des connaissances sur l’œuvre. Ainsi, les auteurs notent que les livres de Science-fiction, de Fantasy et les best-sellers dominent le classement. Les livres tombés dans le domaine public (avant 1923) apparaissent également en bonne place, ce qui est plus logique.

Les chercheurs attribuent cette domination des genres populaires à la récurrence des textes dans les données d’apprentissage de l’IA. On retrouve ainsi des classiques, ancrés depuis de longues années dans la culture populaire :

  • Les Aventures d’Alice au pays des merveilles de Lewis Carroll
  • Harry Potter à l’école des sorciers de J.K. Rowling
  • La Lettre écarlate de Nathaniel Hawthorne
  • Les Aventures de Sherlock Holmes d’Arthur Conan Doyle
  • Emma de Jane Austen
  • Frankenstein ou le Prométhée moderne de Mary Shelley
  • Orgueil et Préjugés de Jane Austen
  • Oliver Twist de Charles Dickens
  • Bartleby le scribe d’Herman Melville
  • Les Aventures de Huckleberry Finn de Mark Twain

Où s’arrête le droit d’auteur ?

Des œuvres surreprésentées dans la « mémoire » des modèles d’OpenAI peuvent-elles biaiser les analyses et les réponses de ChatGPT ? Utilisées dans le cadre d’un travail de recherche précis, les réponses de l’IA peuvent fausser les résultats finaux.

L'étude de l'Université de Berkeley peut être consultée sur son site. // Source : Cornell University
L’étude de l’Université de Berkeley peut être consultée sur son site. // Source : Cornell University

Les chercheurs soulignent l’ambiguïté actuelle relative qui existe sur le droit d’auteur. Bien que l’IA ne mémorise pas entièrement les textes d’entraînement, cette dernière pourrait générer des passages similaires, voire identiques aux sources d’apprentissage.

Les questions de copyright soulevées par les chercheurs rappellent le cas de Stable Diffusion dont les modèles d’image se sont entraînés sur de nombreuses bases d’images propriétaires. En janvier 2023, Getty Images avait intenté une action judiciaire contre l’entreprise, l’accusant d’avoir « copié et analysé illégalement des millions de photos protégées par copyright

Les conclusions des chercheurs de Berkeley relancent le besoin d’une législation claire en la matière.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.