C’était en début d’année. Google confirmait l’abandon d’une fonction de son moteur de recherche pourtant bien commode, qui permettait de consulter la version « cache » des sites web. Ce service servait à afficher l’équivalent d’une photo du site à un instant T. C’était bien pratique, par exemple si ledit site était indisponible à ce moment-là.
Ce cache avait un intérêt pour les personnes travaillant dans l’optimisation de la position des pages sur les moteurs de recherche (le fameux SEO, pour Search Engine Optimization). En effet, le trafic des sites dépend principalement de la place occupée par ces derniers, en fonction des requêtes. Cette fonction était également utile pour les journalistes, pour retrouver des informations.
Internet Archive ou la machine à remonter le temps
Bonne nouvelle, toutefois : Internet Archive arrive à la rescousse. Dans un message publié le 11 septembre, la « mémoire du web » a annoncé la mise en place d’un partenariat avec Google. Dans les grandes lignes, Google va désormais intégrer un lien vers la fonctionnalité « Wayback Machine » pour chaque page web.
Wayback Machine fonctionne un peu comme une machine à remonter le temps. L’outil permet de retrouver une ou plusieurs photographies passées d’un site web, ce qui permet d’avoir un historique, parfois sur des années. C’est un travail de fourmi et colossal qu’abat Internet Archive, car des milliards de pages web sont mises à disposition.
Il est dommage toutefois que Google n’assume plus cette tâche lui-même, en tant que premier moteur de recherche sur le web. L’entreprise américaine a des moyens financiers autrement plus conséquents qu’Internet Archive, qui doit essentiellement compter sur la générosité des internautes pour payer les équipes et financer les infrastructures.
Des milliards de pages recensées
« Notre mission est de fournir un accès universel à toutes les connaissances. La Wayback Machine, l’un de nos services les plus connus, permet d’accéder à des milliards de pages web archivées, garantissant ainsi que les archives numériques restent accessibles aux générations futures », a écrit Chris Freeland, l’un des membres du projet.
Selon Internet Archive, le travail d’archivage couvre 625 milliards de pages, 38 millions de livres et de textes ainsi que 14 millions d’enregistrements sonores. Cela représente plus de 99 pétaoctets de données. C’est colossal : pour prendre des mesures plus connues, un pétaoctet est aussi gros que mille téraoctets, ou bien un million de gigaoctets.
Pour l’instant, le déploiement effectif dans Google n’est pas achevé. Selon Mark Graham, directeur du projet, cela va prendre quelques heures. Cet accord concrétise le souhait de Danny Sullivan, l’un des responsables de la recherche, de passer par Internet Archive pour prendre la succession du service d’archivage interne de Google.
Il n’est pas précisé si ce deal comporte un volet financier et, le cas échéant, de quel montant. Une aide pécuniaire pour appuyer cet enregistrement du web ne serait pas imméritée, compte tenu du rôle d’Internet Archive, et du fait que Google va pouvoir s’appuyer dessus, en laissant quelqu’un d’autre faire le travail qu’il faisait jusqu’à présent.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !