Depuis le début des années 2000, Proofpoint trie des emails pour ses clients. L’entreprise de Sunnyvale, Californie, est une pionnière de la lutte contre les spams : elle fut à l’origine d’une des premières solutions de machine learning pour différencier les bons mails du spam. Après presque deux décennies à entraîner ses robots à trier du courrier, Proofpoint ne traite plus désormais que les cas où l’humain trompe le robot. Ils sont encore nombreux.
Eht wprcx bivqn fvk
Le 3 janvier dernier, la firme américaine documentait un cas nouveau et d’une simplicité étonnante : les auteurs de spams employaient une police de caractère personnalisée afin d’afficher un message lisible pour la victime, mais illisible pour un robot. Lorsque le texte, tel que déchiffré par le logiciel, ne présentait aucun sens — pas de mots reconnaissables –, une fois affichée par la boîte mail il prenait tout son sens — les caractères généraient d’autres caractères grâce à la police singulière.
Sur le visionneur de caractères, on observe que le caractère a est représenté par cette police par un m. Ainsi, l’écriture d’un message en anglais — ici la phrase par défaut utilisé pour visualiser une suite de caractères (The quick brown fox jumps over the lazy dog) — se trouve illisible. Dans le cas des mails fallacieux, c’est l’inverse qui se produit : le premier texte soumis au logiciel de messagerie est illisible et seule l’utilisation de la police de caractères lui donne son sens original.
les robots qui n’ont pas la faculté de lire le texte dans sa forme finale
Pour cela, les attaquants intègrent à leur message un lien vers leur police — une fonctionnalité commune des messageries mettant en page les messages en format HTML. Dans ce cas, les robots qui n’ont pas la faculté de lire le texte dans sa forme finale, mais dans sa première forme, dans le code du message, ne signalent pas aux victimes qu’il s’agit d’un spam. L’astuce aurait été utilisée pour du hameçonnage à l’insu des clients d’une grande banque selon Proofpoint : « les acteurs ont développé un modèle de hameçonnage utilisant une police web pour visualiser un message codé, écrit l’entreprise détaillant l’objectif des attaquants, produire des pages très soignées de phishing pour obtenir les identifiants pour une banque américaine de premier ordre ».
Une nouvelle fois, à travers ce cas, c’est l’éternel champ de la manipulation humaine qui se dessine quand les robots ont appris leur tâche grâce aux algorithmes. Sans prendre en charge ni la malice des hackeurs, ni l’interprétation des victimes, le machine learning se heurtera toujours à la créativité humaine, surtout la plus déconcertante de simplicité.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous à Numerama sur Google News pour ne manquer aucune info !