OpenAI détruit par mégarde des preuves sur lesquelles travaillent les avocats du NY Times

C’est peut-être un accident, personne n’en sait rien. Ce qu’on sait, c’est que la base de données qu’OpenAI a confiée aux avocats du New York Times a été détruite. Détruite par des ingénieurs d’OpenAI : de quoi ralentir le travail de l’accusation alors que le procès approche.

Dans une lettre des avocats du New York Times et du Daily News, ces derniers déclarent qu’OpenAI a supprimé des données que l’entreprise leur avait confiées. Les avocats travaillaient dessus pour comprendre quels articles des deux journaux auraient été utilisés par OpenAI pour entraîner et enrichir ses outils, dont ChatGPT. Cela intervient alors que le New York Times et le Daily News attaquent OpenAI en justice pour violation du droit d’auteur. Une violation que continue de réfuter la société accusée.

La bourde d’OpenAI qui pourrait lui coûter cher

Dans cette lettre déposée au tribunal du district sud de l’État de New York, que TechCrunch a pu consulter, les avocats racontent qu’il y a quelques semaines, OpenAI a accepté de leur fournir deux machines virtuelles pour les deux journaux. Ces machines virtuelles, qui sont des ordinateurs « virtuels » émulés sur les serveurs de l’entreprise, contenaient de quoi chercher les contenus utilisés. L’objectif pour les avocats, c’est de construire une liste exhaustive de potentiellement plusieurs millions d’articles utilisés pour entraîner ChatGPT. Avec les experts engagés, ils auraient passé plus de 150 heures depuis début novembre à rechercher ces données d’entraînement.

ChatGPT serait nul pour les opérations d'influence // Source : Numerama — Ce à quoi ça doit ressembler de fouiller dans ChatGPT // Source : Numerama

Cependant, la semaine dernière, des ingénieurs d’OpenAI ont tout bonnement supprimé les données de recherche des journaux. Selon l’entreprise, c’est un accident : elle a tenté de récupérer les données et a réussi. Le problème, c’est qu’elle n’a pas pu retrouver les structure des dossiers avec les noms des fichiers. Pour les avocats, ces données « ne peuvent pas être utilisées pour déterminer où les articles des plaignants copiés ont été utilisés pour les modèles [d’OpenAI] ». Ce qui les force à repartir de zéro, en engageant davantage de ressources financières. TechCrunch précise que « les avocats des plaignants n’ont aucune raison de croire que la suppression était intentionnelle ». Néanmoins, ils déclarent qu’OpenAI est le seul à pouvoir chercher dans ses propres données les contenus potentiellement utilisés de manière illicite. Le créateur de ChatGPT n’a pas commenté l’incident.

Des affaires judiciaires qui se multiplient autour de ChatGPT

Pour rappel, OpenAI est attaqué en justice par le New York Times et le Daily News, entre autres. Ce n’est pas la seule affaire en cours pour violation du droit d’auteur à laquelle fiat face OpenAI. Les deux journaux ont porté plainte contre l’entreprise de Sam Altman fin 2023, ainsi que contre Microsoft (qui utilise les modèles GPT pour Copilot). Ils accusent cette dernière d’avoir utilisé les articles des journaux pour créer ChatGPT. Ce seraient des millions d’articles qui auraient été utilisés sans l’autorisation du New York Times : le journal aurait particulièrement été utilisé.

Grâce à cela, OpenAI a tiré profit en vendant des abonnements à ChatGPT et en vendant ses technologies à beaucoup d’autres entreprises. Le New York Times avait déclaré avoir tenté de trouver un accord financier, sans succès. D’un autre côté, si ChatGPT reprend les contenus du journal, ils seraient moins enclins à s’y rendre, ce qui lui ferait perdre des revenus (abonnements, publicité).

Ce nouveau bouton permet de lancer une recherche depuis le web sur ChatGPT. // Source : OpenAI

OpenAI maintient que ses outils d’IA ont été entraînés à l’aide de données accessibles publiquement, ce qui comprend des articles du New York Times et du Daily News. Pour la société, il s’agit d’un usage loyal de ces articles et elle dit penser ne pas devoir obtenir une licence ou de payer pour ces contenus. OpenAI ajoute avoir « expliqué au New York Times que, comme toute source unique, son contenu ne contribuait pas de manière significative à la formation de nos modèles existants et n’aurait pas non plus suffisamment d’impact pour les formations futures. » Elle pense également que citer les sources dans les résultats de ChatGPT apporterait aux médias davantage de trafic.

OpenAI change de stratégie et commence à payer les médias

Même si OpenAI affirme ne pas voir pourquoi elle pourrait être condamnée, elle change de stratégie face aux ayant-droits qui l’accusent, notamment les médias d’information. Dans le cadre de ChatGPT Search par exemple, OpenAI a signé des accords avec des acteurs importants : Associated Press, Axel Springer, Condé Nast, Dotdash Meredith (People), Financial Times, GEDI, Hearst, Le Monde, News Corp (The Wall Street Journal, The New York Post), Prisa (El País), Reuters, The Atlantic, Time et Vox Media (The Verge). Par exemple, Dotdash serait payé 16 millions de dollars par an pour laisser ChatGPT s’entraîner sur ses contenus.

Sam Altman, patron d'OpenAI // Source : Numerama — Sam Altman, le patron d’OpenAI // Source : Numerama

En France, ou plutôt dans l’Union européenne, OpenAI pourrait devoir reverser une partie de ses revenus aux entreprises éditrices de médias au nom du droit voisin. C’est ce qui se passe déjà avec Google depuis quelques années. Au-delà de l’aspect légal, si OpenAI travaille avec les médias, c’est pour éviter que ses robots qui « scrappent » (récupèrent) leurs contenus se fassent bloquer. Il s’agit aussi d’une question d’image : si OpenAI fragilise les médias, l’entreprise pourrait être très mal vue.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !