Anonymat vs pseudonymat : pourquoi la différence compte dans le traitement des données

La garantie de l’anonymat est souvent avancée par les développeurs d’application pour rassurer les utilisateurs. Mais il est très difficile à instaurer et pousse à diminuer la qualité des données de l’app.

Parmi les garanties que le gouvernement s’est engagé à fournir pour l’app StopCovid se trouve l’anonymat des citoyens. Dans le Journal du Dimanche, le secrétaire d’État au Numérique Cédric O résumait sa position : « Cette application est volontaire, anonyme, transparente et temporaire. L’État n’a accès à aucune donnée identifiante et il n’y aura pas de géolocalisation. » Difficile d’évaluer aujourd’hui si ces promesses seront tenues, puisque très peu de détails ont été dévoilés au sujet de l’application. Le 29 avril, le Premier ministre a annoncé qu’elle ne sera rendue publique qu’une fois fonctionnelle, puis qu’elle fera l’objet d’un débat et d’un vote à part.

En utilisant le terme d’anonymat, le secrétaire d’État s’aventure sur un terrain complexe, auquel de nombreux développeurs d’app sont confrontés. Il s’agit d’une notion très encadrée, à ne pas confondre avec le pseudonymat. Les deux statuts, bien que très proches, ont des implications différentes en termes de sécurité et nécessitent des traitements de données différents.

L’anonymat est très compliqué à garantir. // Source : Illustration par Lucie Benoit pour Numerama

Ils présentent aussi des avantages différents : si l’anonymat protège au mieux les utilisateurs, il empêche la production de données précises, là où le pseudonymat peut l’autoriser dans une certaine mesure.

Une entreprise ou une organisation pourrait donc justifier de ne pas garantir l’anonymat des utilisateurs, mais il faut qu’elle le dise clairement. Et c’est le principal problème aujourd’hui : le terme d’anonymat est parfois utilisé sans les garanties suffisantes, alors que l’utilisateur n’aura pas à adopter les mêmes précautions s’il n’est pas garanti.

Un anonymat strict est très compliqué à mettre en place

« Une anonymisation irréversible consiste à supprimer tout caractère identifiant à un ensemble de données. Concrètement, cela signifie que toutes les informations directement ou indirectement identifiantes sont supprimées ou modifiées, rendant impossible toute réidentification des personnes » définit la Cnil. Si une application est anonyme et dispose de vos données, personne — même pas l’éditeur de l’app — ne doit savoir qu’elles vous appartiennent. Et ils ne doivent donc pas pouvoir remonter à vous à partir de ce que contient la base de données.

Pour assurer que les informations ne sont pas « identifiantes », l’autorité française des données précise trois conditions à respecter :

La non-individualisation : il ne doit pas être possible d’isoler un individu dans le jeu de données.

Concrètement, si une base de données est anonyme, une personne malveillante qui parviendrait à mettre la main dessus ne pourrait qu’en tirer des constats généraux.

Imaginons que la base de données contienne les entrées et sorties de patients à l’hôpital si elle est anonyme, un observateur n’aura aucun moyen de savoir quelles entrées de la base de données appartiennent à tel ou tel patient. Ils pourraient déduire des constats généraux, comme le pourcentage de patients admis à l’hôpital après une certaine heure, mais il ne pourra pas savoir à quelle heure Nora ou Léo ont été admis.

Cette exigence implique que la base soit dépourvue de données personnelles : identité, adresse, numéro de téléphone, mais aussi l’adresse IP ou encore toute image de la personne. De la même manière, si une base attribue plusieurs types d’informations à un même individu, le principe de non-individualisation peut rapidement être remis en cause, puisqu’il est possible de créer un profil de la personne.

Des concessions sur la précision des données

La non-corrélation : il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu.

Cette condition est peut-être la plus compliquée à remplir. Et pour cause : des géants américains comme Google et Facebook, mais aussi les États, disposent de gigantesques bases de données. Ils peuvent — en théorie, et parfois en pratique — créer des profils très précis de chaque personne identifiée dans leur base. Il ne leur faut donc qu’un très faible volume de données — même si elles ne sont pas qualitatives — pour réidentifier une personne.

Ces gigantesques volumes de données permettent par exemple de proposer des publicités extrêmement ciblées, mais compliquent les processus d’anonymisation.

La non-inférence : il ne doit pas être possible de déduire de façon quasi-certaine de nouvelles informations sur un individu.

Reprenons l’exemple des données d’entrée et sorties à l’hôpital. Si la base précise le service dans lequel le patient a été admis, on pourrait éventuellement en déduire de quelle maladie il est atteint. S’il s’agit d’une maladie rare, et que la localisation de l’hôpital est contenue dans la base, on pourrait théoriquement aller jusqu’à en déduire l’identité de la personne.

Vous l’aurez compris, pour atteindre l’idéal d’anonymat, il ne faut pas que le jeu contienne des données de trop haute qualité. En conséquence, le développeur de l’app devra faire des concessions sur la finesse de l’analyse qu’on pourra en tirer, s’il veut le garantir.

Il faut aussi qu’il puisse assurer que l’anonymisation est irréversible. Or les algorithmes utilisés pour anonymiser sont régulièrement critiqués. Au point que certains experts considèrent qu’une anonymisation stricte n’existe pas.

C’est pourquoi dans l’usage, une majorité de traitements de données se tourne vers le pseudonymat, qui garantit tout de même un certain niveau de protection et est moins exigeant dans sa mise en place. En effet : le pseudonymat limite le risque de réidentification, mais ne l’exclut pas.

Avec le pseudonymat, votre identité pourrait être dévoilée

« La pseudonymisation constitue un compromis entre la conservation de données brutes et la production de jeux de données anonymisées », remarque la Cnil. « Elle consiste à remplacer les données directement identifiantes (nom, prénom, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro dans un classement, etc.) afin d’en réduire leur sensibilité.»

Le pseudonymat n’exclut donc pas la possibilité de remonter à une personne spécifique, mais il la limite grandement. Si un jeu de données est pseudonymisé, il faudra disposer d’informations supplémentaires, qui ne sont pas dans la base, pour identifier la personne. Mais ces informations existent, et le risque qu’elles soient dans les mains des mêmes personnes qui ont accès à la base de données est à prendre en compte.

Par exemple, si vous donnez des informations compromettantes à une application de rencontre qui pseudonymise les données, il existe un risque qu’un acteur tiers puisse les lier à votre identité et s’en servir pour du chantage.

Mais même s’il ne protège pas autant les utilisateurs que l’anonymat, le pseudonymat est promu par le Règlement général sur la protection des données (RGPD) comme une bonne pratique dans le traitement des données personnelles.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !