Non, une intelligence artificielle n'a pas déchiffré l'énigmatique manuscrit de Voynich

L’intelligence artificielle a-t-elle vraiment coupé l’herbe sous le pied des êtres humains qui tentent de déchiffrer le manuscrit de Voynich ? La signification de l’ouvrage mystérieux, vieux de 600 ans, n’a pas été découverte par des algorithmes. Voici pourquoi.

Le manuscrit de Voynich est un mystère vieux de plusieurs siècles. Même sa datation donne du fil à retordre aux nombreux experts qui se sont penchés sur son énigmatique contenu. En 2011, l’Université d’Arizona pensait être arrivée à estimer l’époque de l’ouvrage, dont les pages en parchemin remonteraient au quinzième siècle.

Le document, parfois surnommé « le plus vieux manuscrit du monde », est rempli de textes et d’iconographies que personne n’a pour l’instant réussi à déchiffrer. À l’intérieur du manuscrit, on trouve des cartes d’astronomie, des illustrations de plantes ou des personnages humains qui se baignent dans ce qui pourrait être la fontaine de Jouvence.

Le mystère reste entier

Ces dernières semaines, l’objet historique a suscité un véritable regain d’intérêt. Une publication de l’Université de l’Alberta est à l’origine d’une information relayée dans de nombreux médias : ça y est, une intelligence artificielle serait enfin parvenue à décoder le mystérieux manuscrit de Voynich.

Beinecke Rare Book & Manuscript Library

Or, la technologie est loin d’être parvenue à cette prouesse. Au contraire, les voies du manuscrit sont restées impénétrables. Et c’est peut-être l’élément le plus intéressant de l’histoire : le fait qu’une intelligence artificielle ne soit pas davantage en mesure que les humains de comprendre ce manuscrit lui donne encore plus de valeur.

On pourrait traduire l’intitulé de l’étude par : « Déchiffrer les textes en anagrammes écrits dans un langage et un manuscrit inconnus ». Initialement publié en 2016, le texte a été présenté lors d’une conférence en 2017, avant d’être repris par plusieurs médias. Ses auteurs sont Greg Kondrak, professeur d’informatique à l’Université de l’Alberta, et Bradley Hauer, l’un de ses étudiants en doctorat d’informatique.

L’hypothèse des anagrammes

D’après leurs travaux, il serait possible d’utiliser des algorithmes pour déchiffrer des anagrammes, c’est-à-dire l’inversion de lettres dans un mot ou un groupe de mots afin d’en changer le sens. Les chercheurs expliquent avoir entrainé une IA qui a réussi à décoder des textes chiffrés avec des anagrammes : la technologie obtient un taux de réussite de 93 %, sur 50 textes écrits dans cinq langues différentes.

« Nous appliquons ces résultats au manuscrit de Voynich, un texte crypté du quinzième siècle qui n’a jamais été résolu, suggérant alors que la langue du document serait l’hébreu », écrivent Greg Kondrak et Bradley Hauer.

Le chiffrement par substitution

De nombreux analystes pensent que le manuscrit de Voynich pourrait utiliser la technique du chiffrement par substitution, constituant à substituer une lettre de l’alphabet à une autre — voire d’inventer de nouveaux symboles pour chaque lettre.

Le travail de Greg Kondrak et Bradley Hauer s’inscrit dans cette continuité : comme beaucoup d’autres, ils ont pensé pouvoir déchiffrer le manuscrit en faisant des calculs. En estimant la fréquence à laquelle chaque lettre apparaissait, ils espéraient pouvoir comparer cette statistique à d’autres langues connues.

Beinecke Rare Book & Manuscript Library

C’est avec cette intention qu’ils ont entraîné des algorithmes à reconnaître ces combinaisons. Le processus n’a même pas mobilisé de réseaux neuronaux ou d’apprentissage profond — juste des statistiques. En lui-même, le modèle auquel ils sont parvenus est satisfaisant. C’est une fois appliqué au manuscrit de Voynich qu’il a montré ses limites.

Pourquoi la technique ne marche pas

Premier bémol : les algorithmes ont été entraînés à partir de langues contemporaines. Si la datation du manuscrit établie par l’Université d’Arizona est vraie, l’ouvrage aurait pu être écrit en hébreu… tel qu’il était parlé à cette époque. Autrement dit, la grammaire, l’orthographe et même le vocabulaire du texte ont eu le temps d’évoluer — d’autant plus si l’on considère que le contenu du manuscrit est probablement d’ordre scientifique.

Beinecke Rare Book & Manuscript Library

Un autre élément invite à la prudence. Certes, les algorithmes des deux chercheurs parviennent à identifier quelles pourraient être les langues d’origine, qui auraient ensuite été chiffrées. Mais l’IA ne précise pas de probabilité associée à chacune des hypothèses.

Enfin, et c’est sans doute l’argument le plus important, les chercheurs partent de deux postulats : que le manuscrit utilise le chiffrement par substitution, et qu’il est écrit en anagrammes. Or, ce sont des suppositions qui n’ont jamais été prouvées.

En outre, l’alphabet hébreu est un abjad : cela signifie que ses unités de base sont des consonnes. Si l’on suppose que le manuscrit de Voynich est en hébreu, et a été chiffré avec des anagrammes, il devient (presque trop ?) facile de le traduire — en réorganisant plusieurs fois les mots, voire en ajoutant des voyelles.

La communauté scientifique reste sceptique

Si l’on ajoute à cela que les chercheurs ont apporté leurs propres corrections au texte, et qu’ils ont utilisé Google Translate, on comprend mieux pourquoi la communauté scientifique se montre sceptique face à leurs travaux.

Greg Kondrak et Bradley Hauer admettent eux-mêmes que leur recherche n’est qu’un « point de départ ». Leurs travaux sur les algorithmes restent par ailleurs pertinents. Néanmoins, il reste encore de nombreux écueils à contourner pour pouvoir affirmer un jour prochain qu’une intelligence artificielle aura réussi à déchiffrer un manuscrit vieux de 600 ans.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !