Le 3 avril 2021, un individu publiait une série de fichiers sur un forum d’échange de données très suivi. À l’intérieur de ces fichiers se trouvaient les numéros de téléphone de plus de 500 millions d’utilisateurs de Facebook. Des numéros pour la plupart censés être privés, obtenus à l’aide de deux fonctionnalités mal pensées par le réseau social, depuis corrigée pour l’une et supprimée pour l’autre.
Les jours suivants cet incident, deux autres ventes sur le même forum ont attiré l’attention de certains médias : celle des données de 500 millions d’utilisateurs de LinkedIn, et celle des données d’1,3 million d’utilisateurs de Clubhouse. Qualifiés de « fuites » par certains, ces fichiers ne proviennent pourtant pas d’une faille de sécurité. Les malfaiteurs ont simplement collecté des données affichées publiquement sur des pages accessibles à n’importe quel utilisateur. LinkedInk a enquêté sur le sujet pour confirmer ce constat, tandis que Clubhouse a réaffirmé qu’il n’avait « pas été piraté ».
Puisque les données ne proviennent pas d’une faille, on ne peut pas vraiment parler de « fuite » ni comparer ces incidents à celui de Facebook. Comme le relève Catalin Cimpanu, journaliste de référence sur ces sujets, la distinction est importante. LinkedIn et Clubhouse n’ont pas (dans ce cas précis) fait preuve de négligence dans la protection des données des utilisateurs.
L’utilisation du terme « fuite » pour ces bases de données est donc trompeuse, et a deux conséquences néfastes :
- Pour les entreprises concernées, c’est une qualification qui nuit à leur réputation, alors qu’elles n’ont pas commis d’erreur.
- Pour les utilisateurs de ces sites, c’est une fausse alerte. Ils devraient — en théorie — savoir quelles données ils exposent publiquement. Les données confidentielles n’ont pas été compromises dans ces incidents.
De leur côté, les cybercriminels ont intérêt à présenter ces données comme « exclusives » ou issues de failles de sécurité pour attirer les acheteurs. Mais évidemment, la parole des malfaiteurs sur le marché noir doit être vérifiée, et ce n’est pas parce qu’eux parlent de « fuite » que c’est le cas .
Le scraping, un « piratage » pas comme les autres
Les bases de données d’utilisateurs de LinkedIn et Clubhouse ont été constituées grâce au scraping. Cette technique consiste à aspirer les données d’une page web à l’aide d’un script, un « robot » composé de quelques lignes de code qui va automatiser la collecte. Elle est accessible à n’importe quelle personne un peu débrouillarde en informatique : il suffit de suivre un des nombreux tutoriels en ligne ou d’apprendre à utiliser des scripts déjà écrits par des développeurs chevronnés.
Il existe des outils pour entraver ce travail. Par exemple, la majorité des sites plafonnent le nombre de requêtes qu’un même appareil peut leur envoyer, et d’autres essaient de repérer les robots pour mieux les bloquer. Mais chaque protection à sa méthode de contournement : tout dépendra de l’implication et des compétences des personnes qui veulent accéder aux données.
Une donnée accessible publiquement n’est pas publique
Si le scraping est utilisé communément par de nombreuses personnes, il peut rapidement flirter avec les limites de la légalité. Il permet de collecter des données « publiques » dans le sens où elles sont accessibles publiquement. En revanche, ce n’est pas parce qu’une donnée est accessible publiquement qu’elle est « dans la nature » ou qu’elle n’est plus encadrée par loi. Au contraire : ces données sont protégées par les conditions générales d’utilisation de la majorité des sites. Et dans le cas des données personnelles, les nombreux textes de loi qui garantissent leur intégrité, dont le règlement général sur la protection des données (RGPD), continuent de s’appliquer.
Reste que l’utilisateur doit avoir conscience, au moment où il renseigne des données visibles publiquement, que n’importe qui peut les lire, et potentiellement les collecter. Nous vous expliquions cette problématique avec le cas des Pages blanches, un site où sont accessibles publiquement les adresses et numéros de téléphone de millions de Français et Françaises, parfois sans qu’ils en soient conscients.
De même, la dangerosité du scraping va dépendre de la nature des données collectées : personne ne va s’émouvoir qu’un bot scrape les publications de Donald Trump sur Twitter pour les publier sur un site à part, par exemple. En revanche, lorsqu’une entreprise de reconnaissance faciale commence à aspirer les photos accessibles publiquement sur le web pour alimenter son logiciel, le problème prend une tout autre ampleur.
Puisque le scraping peut être hors-la-loi, certains l’assimileront à du « piratage ». Mais dans tous les cas, il se distingue clairement de l’exploitation d’une faille de sécurité, qui permet d’accéder à des données confidentielles.
Pour évaluer une fuite de données, regarder la qualité avant la quantité
Dès que les histoires de fuites de données émergent, l’attention se porte sur la quantité de données et non sur leur qualité. Pourtant ce second critère est bien plus important que le premier : par exemple, une fuite de 20 numéros complets de cartes bancaires causera plus de dommages qu’une fuite de millions de dates de création de comptes. Ensuite, les données accessibles publiquement ont une valeur bien moindre que les données confidentielles.
Le cas de la « fuite » de Clubhouse est le parfait exemple d’un jeu de données massif, mais peu dangereux. Troy Hunt, fondateur du site de référence sur les fuites de données Have I Been Pwned s’est penché sur le fichier et n’hésite à qualifier les données de « très inoffensives ».
Pour cause, la base contient : le nom de l’utilisateur, son pseudo sur Clubhouse, ses pseudos sur Instagram et Twitter, son nombre d’abonnés et d’abonnements, la date de création du compte et l’adresse URL de sa photo de profil. Autrement dit, aucune donnée vraiment utile dans la mise en place d’un acte malveillant.
Le cas de la base de données LinkedIn est quant à elle plus complexe, car elle contient le nom, l’adresse email et le numéro de téléphone de l’utilisateur entre autres informations renseignées publiquement. Ces moyens de contact peuvent être utiles aux criminels de bas étage — notamment ceux incapables de faire le scraping eux-même — pour lancer des phishings de masse.
Reste que le vendeur demande plus de 1 000 dollars en bitcoin pour obtenir l’accès à ces données, et il est probable que personne ne dépense cette somme. Pour rappel, Linked avait vraiment fuité au milieu des années 2010, et certaines données de contact, très faciles d’accès sont encore exploitables. Ensuite, il existe des centaines d’autres moyens de se procurer des numéros de téléphone en masse, à commencer par ceux de Facebook. Bref, pas sûr que le vendeur trouve acheteur…
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !