Débordés par le flot régulier de nouveaux malwares, Microsoft et Intel travaillent sur un nouveau moyen pour les classifier : ils transforment le code binaire des malwares en images, puis analysent ces images grâce à un modèle d’apprentissage profond.
Cette nouvelle brique technologique va déterminer si le code est malveillant ou bénin en fonction de l’intensité des pixels et de la structure de l’image. Il devrait également faire émerger différentes familles de malwares, dont la projection en image se ressemble.
Les méthodes classiques au bout de leurs capacités ?
Microsoft a communiqué sur cette méthode, nommée Stamina, le 8 mai, à la suite d’un article de l’équipe de recherche commune aux deux géants. Elle pourrait assez rapidement équiper les logiciels de détections des deux mastodontes. Sur ses premiers essais, l’équipe de recherche affirme avoir obtenu un taux de réussite de plus de 99 % dans l’identification et la classification des échantillons de malware qu’elle a soumis à Stamina.
Aujourd’hui, les logiciels antimalwares comparent les signatures ou empreintes des logiciels qu’ils analysent à une liste de signatures de malwares régulièrement mise à jour. « Mais le nombre de variantes de malware continue de grossir et les méthodes classiques ne peuvent plus suivre », s’inquiètent les chercheurs de l’équipe Stamina. Leur méthode permettrait de se passer de la recherche d’association entre le fichier analysé et la liste des signatures de malwares.
Microsoft profite des précieuses données Windows Defender
Pour rendre possible leur nouvelle méthode d’analyse, Microsoft et Intel ont dû passer par plusieurs étapes. D’abord, il leur a fallu développer une nouvelle technique pour convertir le code binaire des malwares en flux de pixels de différents niveaux de gris. Une deuxième étape leur permet de transformer ce flux de points en images 2D, qu’ils redimensionnent ensuite.
Pour finir, ils vont nourrir un modèle d’apprentissage profond avec les images 2D. Cette brique d’intelligence artificielle va scanner la structure des images (les niveaux de gris, l’intensité des pixels…) pour faire émerger une série de caractéristiques différenciantes entre les images. C’est le point fort de l’apprentissage profond : il peut dégager des structures communes à des images qui ne seraient pas visibles par un humain. Le logiciel pourra ensuite classer les images — et donc classer les malwares — en fonction des différents critères qu’il aura identifiés.
2,2 millions de fichiers ont servi à développer Stamina
Plus le modèle sera entraîné avec des données nombreuses et de qualité, plus il sera précis dans son analyse. Justement, Microsoft dispose de centaines de millions d’échantillons de malwares grâce à Windows Defender, le logiciel antimalware présent sur une large majorité des PC. Ce trésor leur permet de se détacher des recherches concurrentes, qui n’ont pas forcément de matière première d’une telle qualité. Dans leur article, les chercheurs précisent que Microsoft a fourni 2,2 millions de hachages de fichiers infectés pour alimenter cette première étape de la recherche. 60 % ont servi à l’entraînement de l’algorithme, 20 % à sa validation et le reste à une phase de test de son efficacité.
À ce stade de développement, Stamina accuse tout de même quelques limites lorsqu’il doit analyser des fichiers de grandes tailles, qui seront traduits en images lourdes. Comme nous l’avons déjà expliqué : le logiciel va redimensionner les images trop imposantes, pour qu’elles ne vampirisent pas toute la capacité de calcul des machines. Sauf qu’en redimensionnant des images JPEG, elle perd en précision, et cette perte se répercute dans la finesse de l’analyse. Mais Microsoft sait déjà comment contourner le problème : le projet ne serait utilisé que sur les fichiers de petite taille, que Stamina analyse avec succès.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !