Le deep web, en somme, est un web caché. Mais, pour comprendre tout cela, il faut d’abord rappeler deux autres définitions : celle d’Internet et celle du web.
Qu’est-ce que le web visible ?
Internet est le réseau des réseaux, un espace qui lie entre eux réseaux privés, publics, à but non lucratif, et qui est complètement décentralisé. Une série de protocoles standardisés permet de l’utiliser pour échanger de l’information depuis à peu près n’importe où.
Si on l’imagine sous la forme d’un iceberg, une petite partie de ce vaste ensemble se trouve au-dessus du niveau de la mer : c’est le web, aussi appelé web visible ou de surface. Le world wide web est un système de pages publiques interconnectées entre elles (grâce aux liens hypertextes) et indexées dans les grands moteurs de recherche : c’est l’une des applications qui existent sur l’infrastructure qu’est Internet.
Selon Kaspersky, cet ensemble de pages, facilement accessibles grâce à des services comme Google, Bing ou DuckDuckGo, représente moins de 5 % du volume total des contenus hébergés et échangés grâce à Internet.
Définition du deep web
Sous la ligne de flottaison de l’iceberg, il existe un tas de pages auxquelles il n’est pas possible d’accéder depuis un moteur de recherche, car ces ressources ne sont pas indexées pour diverses raisons : ce peut être une instruction donnée par un site web de ne pas référencer telle ou telle page. Ce peut être aussi des pages qui ne sont visibles qu’en se connectant.
Un exemple ? La page de votre boîte de réception de votre courrier électronique n’est pas sur Google. Idem pour votre compte en banque. Pourtant, ce sont bien des pages web invisibles, que vous consultez via un navigateur, mais on ne peut pas les trouver sur un moteur de recherche. Au mieux, on peut tomber sur une page de connexion, et c’est tout.
Certaines de ces pages cachées sont vues quotidiennement par les internautes. Par conséquent, dans la représentation sous forme d’iceberg, on les place souvent juste sous la ligne de flottaison. Elles pourraient être comme du web visible, ou le web de surface, au même titre qu’un site lambda. Plus bas sur cette structure d’iceberg se trouvent toutes les pages, informations, données moins accessibles.
Pourquoi y a-t-il un web profond invisible et caché des moteurs de recherche ?
Web de surface et web invisible sont des vocables destinés à expliquer le rôle des moteurs de recherche et la nature des pages, car cela a une incidence sur la visibilité des contenus présents en ligne. Ce web invisble constitue le point de convergence de plusieurs phénomènes qui n’ont pas nécessairement de points communs entre eux.
Une page web qui serait produite avec un langage informatique incompréhensible par un moteur de recherche est susceptible de ne pas être interprétée et, donc, de ne pas être référencée. Elle rentre alors de fait dans la catégorie du web profond. Idem pour les parties privées des sites web, comme son service de messagerie ou bien son compte en banque.
Une page web contenant des instructions pour ne pas être recensée par un moteur de recherche tombe aussi dans ce deep web. Idem pour une page mise en ligne, mais qui n’a pas de lien entrant vers elle. Les robots d’indexation de Google et des autres ne risquent pas de tomber dessus et de la proposer aux internautes, s’ils tapent les bons mots-clés.
En clair, le web profond est né parce que les moteurs de recherche ne voient pas tout du web. Le deep web est, par conséquent, une catégorie hétérogène. Certaines de ces pages pourraient être indexées, si certains paramètres évoluaient. D’autres ne sont tout simplement pas à portée, quoiqu’il arrive. Il y a aussi les limites propres aux robots d’indexation, qui ne repèrent pas tout.
Taille du deep web : la plus grosse partie de l’iceberg ?
Le deep web est vaste, tellement plus que celui de surface, en réalité, qu’il est presque impossible d’en estimer précisément la taille.
En 2001, c’est-à-dire il y a plus de vingt ans, une étude menée par Bright Planet établissait que le deep web était 400 à 550 fois plus vaste que le web de surface, qui lui-même était déjà colossal.
Il est difficile de trouver des estimations récentes, peut-être parce que l’idée même de calculer la taille du web complet (profond et de surface) a été abandonnée devant l’expansion permanente de la somme d’informations que nous produisons et mettons en réseau.
Mais si on reprend le chiffre de Kaspersky, on peut en parler en termes de proportion : au moins 95 % des pages existantes sur le net appartiendraient au web profond.
Qu’est-ce qu’on trouve dans le deep web ?
Parmi nos usages les plus courants, une bonne partie des lieux numériques que nous visitons sous-tendent l’existence d’un millier d’autres pages auquel nous n’aurons jamais accès. Pensez, par exemple, à votre banque, chez qui vous pouvez accéder à votre compte, mais pas aux milliers de pages concernant les comptes d’autres clients. Ou à votre compte chez un service de streaming audio ou vidéo, chez qui des milliers d’autres utilisateurs existent, chacun avec son propre profil, son propre affichage, ses propres paramètres, ses propres données d’utilisation…
Tous ces espaces en ligne sont soit non détectables par les moteurs de recherche, soit indiquent à ces moteurs de ne pas les répertorier, soit sont protégés par différentes mesures de sécurité, à commencer par des mots de passe. S’y mélangent des bases de données, des dossiers de santé, légaux, ou à autres composantes sensibles, des intranets d’entreprises ou d’universités… qu’il est possible de consulter à condition de savoir ce que l’on cherche et d’avoir les accès nécessaires.
On peut aussi trouver des pages web tout à fait banales, qui auraient leur place à la surface du net, mais qui utilisent des langues informatiques, des balises ou des règles qui les font sortir des radars des moteurs de recherche.
À quoi sert le deep web ?
Le deep web n’a pas de vocation particulière. Son existence n’est que le résultat d’un « défaut d’indexation », ou plutôt d’une limite dans le référencement de ce qui se trouve en ligne. Sa caractéristique est qu’il reflète simplement les divers degrés de non-référencement et de confidentialité de contenus sur la toile. Être dans le web profond ne signifie en aucun cas que les contenus sont forcément illégaux. Ce sont juste des contenus hors de Google ou de Bing. Cela n’est en rien illicite.
Quelle est la différence entre le dark web/darknet et le deep web ?
Il y a souvent une confusion entre ces deux termes. Le Dark Web est en réalité une petite partie du Deep Web, la plus immergée. Accessible uniquement via des logiciels dédiés comme Tor, c’est dans cette zone que l’on trouve des activités souvent illégales et criminelles telles que la vente de drogues, d’armes, ou encore des forums de cybercriminalité revendant des données issues du deep web à prix d’or.
Est-il interdit d’aller sur le deep web ?
Non, il n’est pas nécessairement interdit d’aller sur le deep web. Comme évoquer précédemment, il est important de comprendre que le deep web n’est pas intrinsèquement lié à des activités illégales. La majorité des pages qui s’y trouvent sont légitimes et ont pour vocation de protéger la vie privée des utilisateurs ou de limiter l’accès à des informations sensibles. Cependant, tenter de s’introduire dans ces espaces protégés pour récolter des mots de passe ou d’autres informations sans autorisation est totalement illégal. Cela constitue une violation des lois sur la cybersécurité et peut entraîner des sanctions pénales sévères.
Qui utilise le deep web ?
Il n’y a pas nécessairement besoin d’être un hackeur pour avoir accès au deep web. C’est un peu coffre-fort de tout un tas de gens et d’institutions qui utilisent le web au sens large. Les banques en ligne, par exemple, y stockent des données confidentielles de leurs clients accessibles via certains menus une fois connecté. Les entreprises l’utilisent pour les bases de données internes ou projets confidentiels, idem pour les grandes applications que l’on utilise au quotidien comme Uber, Vinted et bien d’autres. En somme, tout le monde utilise le deep web de manière passive en tant que navigateur ordinaire, sans même sans rendre compte.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !