Vous recherchez désespérément ce vieil article qui vous expliquait comment graver votre copie de Matrix.DiVX.XX.Torrent.Illegal dans la meilleure qualité ? Ou peut-être êtes-vous curieux de savoir comment a été reçu le premier Metal Gear sur PlayStation ? Retro Magazine Search est fait pour vous.

Si vous avez plus de 20 ans et que vous êtes ferventes lectrices ou lecteurs de Numerama, il y a de fortes chances pour que vous ayez vécu vos premiers émois informatiques et vidéoludiques à travers la presse papier. Au tournant des années 2000, l’informatique et les jeux vidéo se démocratisent dans les foyers français et la presse saute sur le sujet. À l’époque, il n’était pas rare de trouver des couvertures qui promettaient de vous apprendre à « [Exploiter] votre box ADSL à 100 % » ou de tout vous dire sur Age of Empire (le 2, pas le 4).

Aujourd’hui, la presse informatique a largement migré sur le web, mais toutes ces belles pages d’astuces, de reportages et de tests sont préservées sur le site Abandonware-magazines.org, « le site des anciennes revues informatiques ». Depuis 2002, le site recense des centaines de revues et des milliers de numéros de magazines numérisés. Une véritable madeleine de Proust pour tous celles et ceux qui ont grandi avec Joystick ou l’Ordinateur Individuel.

Apprenez à graver des DivX depuis l’année 2004

Construisant sur cette base de données déjà belle, Marc-Aurélien Chardine, professeur de Physique-Chimie et NSI (Numérique et sciences informatiques) en lycée, a mis en ligne Retro Magazine Search. Ce moteur de recherche permet de retrouver de vieux articles parus dans d’anciennes revues papier. Il suffit de taper n’importe quel terme, ayant à voir avec l’informatique ou le jeu vidéo, pour voir remonter des scans de magazines parlant du sujet.

Vous voulez savoir comment le tout premier Crash Bandicoot a été reçu en 1996 ? Pas de problème, le numéro de Consoles + paru en 1996 vous dira tout en page 5. Un portrait de Steve Wozniak, le co-créateur d’Apple, paru en 1984 ? Ce sera dans le numéro 8 de ABC Informatique, en page 17. Vous pouvez aussi apprendre à graver des DivX grâce à au Numéro 1 de Vous et Votre Mac, paru en décembre 2004.

Le moteur de recherche se permet d’être si précis, car il effectue une recherche en « texte intégral », c’est-à-dire qu’il balaie le contenu des pages scannées, et pas seulement leurs titres. Cela est rendu possible grâce à un énorme travail de reconnaissance de caractère effectué par Marc-Aurélien Chardine.

600 000 pages scannées

« Avec mes élèves de Terminale NSI, on avait réalisé un moteur de recherche sur le magazine Joystick pour travailler sur les algorithmes de recherche textuelle. J’ai ensuite poussé le projet plus loin pour pouvoir faire émerger des articles de presse sur l’histoire de l’informatique ou des notions du cours. Ensuite, l’effort était faible pour intégrer tous les magazines, donc je l’ai fait », explique simplement Marc-Aurélien Chardine, interrogé par Numerama.

Le site permet de faire des recherches au sein de certains magazines particuliers // Source : Capture d'écran Numerama

Le site permet de faire des recherches au sein de certains magazines particuliers

Source : Capture d'écran Numerama

En tout, il aura fallu faire tourner une machine pendant 2 mois pour scanner les 600 000 et quelques pages qui constituent aujourd’hui la base de données. Chaque image est passée au travers d’un algorithme de reconnaissance de caractère pour extraire le texte et le lier à la page adaptée. « J’utilise Tesseract depuis un script Python pour faire l’OCRisation. Sur du texte dactylographié, si l’image n’est pas floue, on a vraiment une bonne précision et peu d’erreurs », détaille le professeur de Physique-Chimie.

« Apprendre à automatiser les tâches fastidieuses »

Effectuée sur un ordinateur que Marc-Aurélien Chardine décrit comme « une machine de guerre, mais de 2012», cette opération a donné naissance à une base de données de près de 2 Go. Le volume peut sembler minime vu comme ça, mais sur un fichier de texte brut, 2 Go représente une quantité considérable de données. « Je ne fais rien à la main, tout est fait par des algorithmes. Il faudrait une vie entière pour le faire à la main », ajoute Marc-Aurélien Chardine, avant de préciser : « c’est d’ailleurs ce qu’on enseigne en cours d’informatique au lycée, apprendre à automatiser des tâches fastidieuses. »

ll faudrait une vie entière pour le faire à la main.

Sur la journée du 27 octobre 2021, ce sont déjà 5 000 recherches qui ont été effectuées sur le site, preuve de sa popularité. « Il n’y a pas mal de gens pour lesquels un Atari 2600 (ou autre en fonction de sa génération) est une madeleine de Proust », conclut l’homme derrière le projet. Si vous voulez vous faire un shoot de nostalgie numérique, vous savez où aller.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !