Pour mieux détecter les malwares, Microsoft et Intel les transforment en images

Plutôt que d’analyser les signatures des malwares, les deux géants américains prévoient d’analyser leurs projections en image. Ils profiteraient ainsi de la capacité de structuration des modèles d’apprentissage profond.

Débordés par le flot régulier de nouveaux malwares, Microsoft et Intel travaillent sur un nouveau moyen pour les classifier : ils transforment le code binaire des malwares en images, puis analysent ces images grâce à un modèle d’apprentissage profond.

Cette nouvelle brique technologique va déterminer si le code est malveillant ou bénin en fonction de l’intensité des pixels et de la structure de l’image. Il devrait également faire émerger différentes familles de malwares, dont la projection en image se ressemble.

L’équipe de recherche du projet Stamina a développé un processus pour transformer les fichiers malveillants en images et ainsi mieux les analyser. // Source : Intel Corporation

Les méthodes classiques au bout de leurs capacités ?

Microsoft a communiqué sur cette méthode, nommée Stamina, le 8 mai, à la suite d’un article de l’équipe de recherche commune aux deux géants. Elle pourrait assez rapidement équiper les logiciels de détections des deux mastodontes. Sur ses premiers essais, l’équipe de recherche affirme avoir obtenu un taux de réussite de plus de 99 % dans l’identification et la classification des échantillons de malware qu’elle a soumis à Stamina.

Aujourd’hui, les logiciels antimalwares comparent les signatures ou empreintes des logiciels qu’ils analysent à une liste de signatures de malwares régulièrement mise à jour. « Mais le nombre de variantes de malware continue de grossir et les méthodes classiques ne peuvent plus suivre », s’inquiètent les chercheurs de l’équipe Stamina. Leur méthode permettrait de se passer de la recherche d’association entre le fichier analysé et la liste des signatures de malwares.

Microsoft profite des précieuses données Windows Defender

Pour rendre possible leur nouvelle méthode d’analyse, Microsoft et Intel ont dû passer par plusieurs étapes. D’abord, il leur a fallu développer une nouvelle technique pour convertir le code binaire des malwares en flux de pixels de différents niveaux de gris. Une deuxième étape leur permet de transformer ce flux de points en images 2D, qu’ils redimensionnent ensuite.

Pour finir, ils vont nourrir un modèle d’apprentissage profond avec les images 2D. Cette brique d’intelligence artificielle va scanner la structure des images (les niveaux de gris, l’intensité des pixels…) pour faire émerger une série de caractéristiques différenciantes entre les images. C’est le point fort de l’apprentissage profond : il peut dégager des structures communes à des images qui ne seraient pas visibles par un humain. Le logiciel pourra ensuite classer les images — et donc classer les malwares — en fonction des différents critères qu’il aura identifiés.

2,2 millions de fichiers ont servi à développer Stamina

Plus le modèle sera entraîné avec des données nombreuses et de qualité, plus il sera précis dans son analyse. Justement, Microsoft dispose de centaines de millions d’échantillons de malwares grâce à Windows Defender, le logiciel antimalware présent sur une large majorité des PC. Ce trésor leur permet de se détacher des recherches concurrentes, qui n’ont pas forcément de matière première d’une telle qualité. Dans leur article, les chercheurs précisent que Microsoft a fourni 2,2 millions de hachages de fichiers infectés pour alimenter cette première étape de la recherche. 60 % ont servi à l’entraînement de l’algorithme, 20 % à sa validation et le reste à une phase de test de son efficacité.

À ce stade de développement, Stamina accuse tout de même quelques limites lorsqu’il doit analyser des fichiers de grandes tailles, qui seront traduits en images lourdes. Comme nous l’avons déjà expliqué : le logiciel va redimensionner les images trop imposantes, pour qu’elles ne vampirisent pas toute la capacité de calcul des machines. Sauf qu’en redimensionnant des images JPEG, elle perd en précision, et cette perte se répercute dans la finesse de l’analyse. Mais Microsoft sait déjà comment contourner le problème : le projet ne serait utilisé que sur les fichiers de petite taille, que Stamina analyse avec succès.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !