A lire également : pourquoi la méthode de l’INRIA est inapplicable légalement
Dotés d’un simple ordinateur connecté à Internet, des chercheurs de l’Institut national de recherche en informatique et en automatique (INRIA) ont pu dresser une cartographie sans précédent des utilisateurs de BitTorrent, et des plus gros uploadeurs de contenus récents. Stevens Le Blond, Arnaud Legout, Fabrice Lefessant, Walid Dabbous, et Mohamed Ali Kaafar viennent de publier les conclusions (.pdf) de plus de trois mois d’espionnage intensif du réseau BitTorrent, et des utilisateurs de trois des plus gros sites BitTorrent du monde : Mininova, The Pirate Bay, et IsoHunt. Un travail à faire palir de jalousie l’Hadopi, et à donner des idées à l’entreprise nantaise TMG qui aura en charge de traquer les pirates.
Pendant exactement 103 jours à l’été 2009, avec un ordinateur lambda, les chercheurs ont collecté 148 millions d’adresses IP téléchargeant 2 milliards de copies de fichiers. Leur idée était de démontrer les failles du protocole BitTorrent et des principaux sites pirates, dans la protection de leur vie privée. Une sorte de manuel des corrections à apporter et des précautions à prendre pour éviter les foudres de la riposte graduée.
Le plus gros contributeur ajoute 6,5 séries TV par jour aux trackers BitTorrent
Ils ont d’abord souhaité identifier les plus gros contributeurs, qui mettent sur BitTorrent le plus de contenus nouveaux que s’échangent ensuite des milliers d’utilisateurs. Pour y parvenir, l’idée de base était d’arriver le plus rapidement possible sur les nouveaux .torrents, pour demander aux trackers les adresses IP de ceux qui partagent le fichier. En agissant suffisamment rapidement, il suffisait de regarder qui était le seul utilisateur à avoir le fichier au complet. En principe, il s’agit du premier fournisseur du contenu.
Sauf que le protocole BitTorrent a évolué, et que beaucoup de clients utilisent la méthode dite du « superseeding » pour répartir au mieux leur upload entre plusieurs utilisateurs. Ils ne déclarent donc plus partager l’ensemble du fichier, mais uniquement des bouts différents. Qui aura le début, l’autre la fin. Et ainsi les deux pourront s’entraider pour échanger les parties qui leur manque, et les partager à leur tour.
Pour faire face à ce problème, les chercheurs ont téléchargé toutes les minutes les pages de The Pirate Bay ou IsoHunt où sont publiés les nouveaux .torrents. Puis ils ont récupéré les identifiants (login) de chaque uploader, en partant d’une idée frappée au coin du bon sens : « un fournisseur de contenu va souvent être le seul peer à distribuer tous les contenus uploadés par son login« . Ils ont donc regroupé tous les contenus par login d’uploader, et regardé quelles étaient les adresses IP qui partageaient le plus de ces contenus. Ils estiment ainsi avoir trouvé l’adresse IP de 70 % des premiers uploaders.
Ils ont ainsi découvert que le plus gros uploader était eztv, qui ajoute en moyenne 6,5 nouveaux épisodes de séries TV chaque jour. Selon leurs statistiques, les 100 plus gros uploaders sont à l’initiative de 30 % des contenus échangés, et la proportion double avec le top 1000. « Il est surprenant que les groupes anti-piratage essayent de stopper des millions de téléchargeurs plutôt qu’une poignée de fournisseurs de contenus« , écrivent les chercheurs.
Reste cependant un problème de taille auquel s’est confrontée l’équipe de l’INRIA : comment être sûr que les adresses IP collectées sont bien celles des internautes suspectés ? En se concentrant sur les 20 plus gros uploaders, ils ont découvert que la moitié d’entre eux utilisaient un serveur hébergé en France chez OVH, ou en Allemagne chez Keyweb. Et en regardant les noms des fichiers qu’ils uploadaient, ils en ont déduit qu’ils n’étaient probablement ni français, ni allemands. En écartant les adresses IP répétées sur les trackers avec un grand nombre de ports différents, ils ont aussi écarté les utilisateurs protégés derrière des proxies, des noeuds TOR, ou des VPN.
Identifier les plus gros téléchargeurs
Pour trouver les plus gros téléchargeurs, les chercheurs ont demandé toutes les 24 heures aux huit trackers The Pirate Bay une copie de tous les identifiants de fichiers (le hash, présent dans tous les fichiers .torrents), avec des statistiques comme le nombre de peers qui ont téléchargé une copie complète du fichier, le nombre de téléchargeurs, etc. Ces données, fournies par la commande scrape-all du tracker OpenTracker, pesaient environ 120 Mo par tracker. Elles étaient ensuite filtrées pour ne retenir que les fichiers qui étaient effectivement téléchargés et uploadés.
Puis toutes les deux heures ils demandaient au tracker de The Pirate Bay de lui envoyer les adresses IP des peers pour chacun des contenus du site. 90 % des adresses IP annoncées par le tracker de The Pirate Bay étaient ainsi collectées. La procédure prenait environ 30 minutes pour télécharger les adresses IP de 500 000 à 750 000 contenus référencés.
Ils pouvaient alors dresser une cartographie des téléchargements et voir quelles adresses IP revenaient sur le plus grand nombre de contenus différents renvoyés par la commande scrape-all.
En conclusion de leur étude, les chercheurs estiment qu’une « solution pour protéger la vie privée des utilisateurs de BitTorrent serait d’utiliser des proxies ou des réseaux d’anonymisation comme Tor« . Mais ils ont déjà publié une autre étude (.pdf) qui montre comment identifier un utilisateur qui se pense caché derrière Tor…
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !