Loi antiterroriste : tout comprendre aux problèmes que pose l’analyse des URL

Un nouveau projet de loi antiterroriste déposé par le gouvernement entend pérenniser et renforcer la surveillance sur le net. Le texte vise notamment les adresses pointant vers des ressources sur Internet, suggérant que les adresses web des sites visités par les internautes pourraient être collectées et traitées. Mais ce chemin fait face à certaines limites et soulève quelques problèmes.

C’est ce mercredi 28 avril que doit être présenté en Conseil des ministres un nouveau projet de loi antiterroriste — un de plus dans la longue liste de textes qui ont été adoptés depuis plus de trente ans. On sait d’ores et déjà que cette législation va pérenniser une disposition expérimentale en place depuis 2015, à savoir la détection, par des algorithmes, de signaux sur le net qui sont liés au terrorisme.

Mais le projet de loi relatif à la prévention d’actes de terrorisme et au renseignement, qui a été partagé avant l’heure par le site Next Inpact, a permis de découvrir une autre facette plus surprenante : il apparaît que l’exécutif souhaite ajouter dans la boucle de la surveillance en ligne les adresses web (ou URL) des sites que les internautes visitent depuis la France.

Juridiquement, le document prévoit de mettre à jour l’article L851-3 du code de la sécurité intérieure pour inclure dans les traitements automatisés « les adresses complètes de ressources sur Internet », toujours dans le but de « détecter des connexions susceptibles de révéler une menace terroriste ». Là encore, ce recueil se fait « en temps réel », ce que la loi prévoit déjà pour les autres données récoltées.

Est-ce à-dire qu’il s’agit-là du prélude à la surveillance de masse des sites visités par les Français et les Françaises ? La rédaction du Code de la sécurité intérieure déclare que ces dispositions sont opérées « pour les seuls besoins de la prévention du terrorisme », pour « les personnes préalablement identifiées susceptibles d’être en lien avec une menace », et requièrent une autorisation spécifique.

Gérald Darmanin à l'Assemblée nationale

Source : Assemblée Nationale

Quid des données personnelles ou sensibles dans les URL ?

Contrairement aux métadonnées classiques (c’est-à-dire les informations périphériques donnant du contexte à un contenu, comme à quelle heure un contenu a été envoyé, à qui, par quel moyen, depuis quel endroit, etc.), les adresses web ont un profil un peu à part, car elles peuvent en dire long sur une personne, y compris indiquer directement ou non des données personnelles, voire sensibles.

Toutes les adresses web ne disent en effet pas la même chose d’une personne. Collecter des adresses peut sembler anodin lorsqu’il ne s’agit que de google.fr ou facebook.com. On change toutefois de registre avec, par exemple, vaincrelamuco.org ou dialogai.org. Ces deux sites, que nous prenons ici au hasard, peuvent suggérer le statut de la personne qui les visite. Or, la maladie ou l’orientation sexuelle sont des données particulièrement sensibles

Les OS et opérateurs récupèrent de nombreuses données personnelles. // Source : ThisIsEngineering / Pexels

En apprendre plus

Mais au fait, c’est quoi une donnée personnelle ?

Cette problématique est loin d’être nouvelle. Déjà en 2016, le Commission nationale de contrôle des techniques de renseignement indiquait, dans son avis, que si le recueil des adresses de sites visités peut être envisagé pour des internautes surveillés, cela doit se faire que si elles ne sont pas trop précises. Seulement, le souci peut se poser dès le nom de domaine, comme vaincrelamuco.org.

La Commission expliquait à l’époque que les données de connexion « ne peuvent porter sur le contenu de correspondances ou les informations consultées ». Comment faire, dès lors, pour trier les adresses, si celles-ci sont porteuses d’informations ? Entre celles qui ne sont qu’un simple contenant (par exemple doctissimo.fr), et celles qui révèlent du contenu (doctissimo.fr/html/dossiers/cancer/cancer-vie-quotidienne.htm ?

Les FAI ne se soucient pas des adresses

Autre obstacle auquel se heurte cette loi : l’absence de conservation et de traitement des adresses par les opérateurs. L’article L34-1 du code des postes et communications électroniques énonce que ces tâches « ne peuvent en aucun cas porter sur le contenu des correspondances échangées ou des informations consultées, sous quelque forme que ce soit, dans le cadre de ces communications.»

Cela nous avait été confirmé en 2017 par Alexandre Archambault, avocat spécialiste des réseaux et ancien responsable des affaires réglementaires chez Free, sur un tout autre sujet. « On ne peut conserver les données techniques que lorsqu’elles sont nécessaires à l’acheminement et / ou à la facturation d’une communication », disait-il alors, ajoutant « qu’une URL n’est pas une donnée pertinente pour l’acheminement ».

Dans l’acheminement des connexions, certaines informations techniques ne sont pas utiles aux opérateurs. // Source : CommScope

Les opérateurs ont besoin des adresses IP, c’est-à-dire des adresses pour contacter des machines sur le réseau et ainsi établir une connexion. C’est de cette façon que l’internaute (via sa box Internet, qui a son adresse IP) peut se rendre sur le site (dont le serveur est aussi doté d’une adresse IP) qui l’intéresse. L’adresse tapée dans le navigateur est par contre utile pour le service.

Commentant d’ailleurs la nouvelle législation, Alexandre Archambault a saisi l’occasion pour rappeler sur Twitter que le Conseil Constitutionnel a explicitement fait savoir que les données de connexion ne peuvent porter sur les informations consultées (URL, requêtes DNS…). L’instance se prononçait sur une question prioritaire de constitutionnalité au sujet de l’accès administratif aux données de connexion

Le web est de plus en plus chiffré

Outre les dispositions juridiques faisant qu’en France, les opérateurs ne procèdent ni au traitement ni à la conservation des adresses, il y a aussi une réalité technique : le trafic en ligne est aujourd’hui massivement chiffré, en partie en réponse à… la surveillance de masse qui a été révélée en 2013 par Edward Snowden, lorsqu’il a sorti des documents montrant les activités de la NSA sur le net.

Ainsi, les liaisons sécurisées aux sites web grâce au protocole HTTPS sont devenues très largement majoritaires — le tableau de bord que Google fournit pour suivre son emploi montre que plus de 90 % des pages web vues par Chrome sont chargées en HTTPS (et même aux alentours de 95 % en France). Le HTTPS a supplanté le HTTP, non sûr, ce qui sécurise aussi l’internaute à l’égard d’autres menaces.

À cela s’ajoute l’émergence d’une autre évolution technique, appelée DNS over HTTPS, ou DoH. Avec ce mécanisme, les requêtes et les réponses entre votre PC et les serveurs DNS (qui indiquent à quelle adresse web correspond telle adresse IP) ne sont plus envoyées en clair. La résolution du DNS se fait avec une couche de cryptographie. Nous avons un peu plus détaillé le DoH dans cet article.

Stéphane Bortzmeyer, ingénieur R&D à l’AFNIC, l’organisme qui gère le nom de domaine de premier niveau attribué à la France (« .fr »), expliquait que le DNS s’avère être « le seul protocole important qui ne soit pas protégé par la cryptographie » — en tout cas, pas encore. Le fait est que les navigateurs comme Chrome et Firefox s’y mettent ne devrait pas faciliter les plans antiterroristes français.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !