Vos photos sur les réseaux sociaux ont-elles servi à entraîner une intelligence artificielle ? Dit comme cela, la question peut paraître absurde. Qui irait imaginer que des clichés publiés sur Facebook ou Instagram pourraient être utilisés pour apprendre à des IA à quoi ressemble une forêt ?
Pourtant, c’est un fait : les intelligences artificielles de génération d’images ont été entraînées sur un gigantesque corpus de photos trouvées sur Internet — peut-être les vôtres. La question est encore plus importante si vous êtes un créateur sur les réseaux sociaux, et si vous voulez vous assurer qu’il n’y a pas eu d’entorse aux droits d’auteur. Pour savoir si tel est le cas, il existe un outil : HaveIBeenTrained.
Consultez les bases de données utilisées pour entraîner les IA
HaveIBeenTrained permet de consulter Laion 400M et Laion 5B, deux gigantesques bases de données contenant respectivement 400 millions et 5 milliards de photos qui ont servi à entraîner les intelligences artificielles Stable Diffusion et Imagen. Il s’agit des deux plus grandes bases de données d’images décrites avec du texte, ce qui permet aux IA de mieux associer les deux idées.
Pour savoir si un de vos dessins partagés sur Internet fait partie de ces deux énormes bases de données, rien de plus simple : il vous suffit de faire une recherche par image, ou par texte. Une requête pour « photo forêt » vous montrera toutes les images qui existent dans la base de données correspondant à cette description.
Mais HaveIBeenTrained s’adresse surtout aux artistes présents sur les réseaux sociaux, et dont les œuvres pourraient avoir été aspirées par Laion. Le site propose ainsi « aux artistes de rechercher dans ces bases de données des liens vers leurs travaux et d’en demander le retrait », peut-on lire dans la description. « Nous sommes en partenariat avec Laion, qui a assemblé ces bases de données, afin de faire en sorte que les futurs modèles [d’intelligence artificielle] ne soient pas entraînés avec des œuvres qui ont été retirées. »
Le fait que le site s’adresse spécifiquement aux artistes n’est pas anodin. Au début du mois de janvier 2023, trois artistes, dont la dessinatrice Sarah Andersen, très connue pour ses comics sur Instagram, ont porté plainte contre Midjourney et Stable Diffusion. Ces intelligences artificielles, en utilisant des milliards d’images prises sur Internet afin de s’entraîner, « ont enfreint le droit d’auteur de millions d’artistes […] qui n’ont pas donné leur consentement et qui n’ont pas reçu de compensation. »
En utilisant HaveIBeenTrained, il est en effet aisé de se rendre compte que les dessins de Sarah Andersen figurent dans les bases de données de Laion.
Que trouve-t-on dans ces bases de données ?
Jusqu’à présent, il était très difficile de savoir exactement ce qu’il y a dans ces énormes bases de données de 5 milliards d’entrées. Laion 400-M et Laion 5-B ont été assemblées avec des procédures complexes entièrement automatisées, qui ne permettent pas forcément de trier les images qui vont y être intégrées. Et cela veut parfois dire que certaines photos ne sont pas forcément libres de droits.
L’agence de photo Getty Image en a récemment fait les frais : elle s’est aperçue que des IA avaient été entrainées sur un grand nombre de ses photos, au point où ces dernières pouvaient reproduire le fameux bandeau de copyright. Getty Image a ainsi porté plainte contre Stable Diffusion pour avoir « copié et analysé illégalement des millions de photos protégées par copyright. »
Un rapide test permet en effet de se rendre compte de la variété de ce qu’on y trouve. Il n’y a pas que des photos de paysages, mais également des couvertures de livres, des images publicitaires, mais aussi des extraits de publications Facebook où les noms sont clairement identifiables, ou encore des photos de personnes anonymes publiées sur Skyblog.
Pendant nos recherches, nous sommes même tombés par hasard sur des photos à caractère pornographique, preuve qu’il y a beaucoup, beaucoup de choses disponibles sur ces bases de données — et que tout le monde ferait bien de vérifier ce qu’il s’y trouve.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !