Tout ce que vous écrivez sur Bluesky risque de servir à entraîner des IA

Une affaire de jeu de données regroupant un million de messages publiés sur Bluesky a causé un émoi. Et souligné les limites du réseau social pour empêcher certaines pratiques douteuses pour entraîner les IA.

« Tout ce que vous direz pourra être retenu contre vous ». Cette phrase, répétée inlassablement dans les séries judiciaires américaines, pourrait être très bien déclinée aujourd’hui à la sauce de l’intelligence artificielle : tout ce que vous écrivez sur Internet pourra servir à entrainer des IA. Y compris sur Bluesky, le réseau social qui rêve de renverser X.

C’est ce que révèle une affaire toute récente, signalée par 404Media dans son édition du 26 novembre. Un spécialiste en apprentissage automatique (une branche de l’IA) avait annoncé, dans la journée du 26 novembre, avoir constitué un jeu de données contenant un million de publications publiques tirées de Bluesky.

Source : Capture d'écran — Source : Capture d’écran

Pour cela, il s’est servi d’une API mise à disposition par Bluesky. Cela lui a permis de récupérer, outre le contenu des messages, des métadonnées — notamment l’horodatage des publications (horaire et jour) et les statistiques d’interaction (reposts, citations, appréciations). « Idéal pour tester l’utilisation de l’apprentissage automatique pour Bluesky », ajoutait-il.

Brutale machine arrière après le tollé

24 heures plus tard, patatras ! L’expert fait brutalement machine arrière. Sur Bluesky, il a indiqué ce 27 novembre avoir « retiré les données de Bluesky du dépôt. Bien que je veuille soutenir le développement d’outils pour la plateforme, je reconnais que cette approche a violé les principes de transparence et de consentement dans la collecte de données. »

L’intéressé avait partagé son archive sur Hugging Face, plateforme web de référence dédiée à l’IA sur laquelle il est d’ailleurs possible de tester des modèles sans grande compétence technique. La page est toujours en ligne, mais elle inclut une mise à jour faisant mention du retrait du dépôt en raison de l’ampleur des « réactions négatives » de la communauté.

La page demeure, parce que le spécialiste, qui a depuis présenté ses excuses, désire nourrir la réflexion et les discussions « sur la façon dont les ensembles de données peuvent être utilisés pour aider à améliorer Bluesky et permettre aux gens de construire les outils dont ils ont besoin pour construire leurs propres modèles ouverts et des approches pour créer des flux qui fonctionnent pour leurs besoins. »

Cette affaire survient alors que Bluesky prenait position sur la question de l’IA générative (GenAI) le 15 novembre. « Nous n’utilisons aucun de vos contenus pour entraîner l’IA générative, et nous n’avons aucune intention de le faire », lançait le site, notant « qu’aucun de ses systèmes n’est un système d’IA générique formé sur le contenu utilisateur. »

Bluesky a des règles, mais ne peut pas faire grand chose

L’incident est de toute évidence remonté jusqu’aux oreilles de Bluesky, qui a publié un fil actualisé sur sa politique sur l’IA générative. La plateforme, en particulier, a voulu aborder le sujet plus spécifique des tiers extérieurs qui accèdent au réseau social. Et admettre essentiellement que ses possibilités sont limitées pour éviter certaines dérives.

Bluesky est un réseau social ouvert et public, tout comme les sites web sur l’Internet lui-même. Les sites Web peuvent préciser s’ils consentent à ce que des entreprises extérieures explorent leurs données à l’aide d’un fichier robots.txt ». Et, plus loin, de souligner que « Bluesky ne sera pas en mesure de faire respecter ce consentement à l’extérieur de nos systèmes. »

Bluesky a des options limitées pour empêcher le scrapping. // Source : Canva/Montage Numerama

Malgré tout, Bluesky étudie la possibilité de déployer des règles de ce type sur ses espaces, pour que les membres de la plateforme indiquent s’ils sont d’accord ou non à l’idée que leurs messages servent « dans des jeux de données d’entraînement à l’IA ». Mais, c’est en partant de l’hypothèse que tout le monde jouera le jeu, en respectant les règles.

Cet aveu illustre une relative impuissance face à une pratique qui est très mal vue, et qui pourtant est observée largement sur le net : le scrapping. Il s’agit d’utiliser des outils automatiques qui aspirent des informations qui sont accessibles publiquement sur le net, comme les réseaux sociaux, sans trop se soucier des règles de ces espaces.

Un cas notable a été observé avec Clearview, sur la reconnaissance faciale. Cependant, le scrapping n’est pas étranger à la GenAI. Des accusations de ce type ont été portées à ce sujet — le New York Times a attaqué OpenAI sur ce terrain, par exemple. Dans un autre genre, YouTube avait aussi mis en garde OpenAI sur ce sujet.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Bluesky

Télécharger gratuitement