Le modèle d’IA DarkBERT est entraîné avec les recoins les plus sombres d’Internet

Concevoir un modèle d’intelligence artificielle (IA) établi sur le contenu du dark web ? C’est l’idée d’une équipe sud-coréenne, avec un projet qui s’appelle DarkBERT. Mais, il ne s’agit pas du tout de créer une version maléfique de ChatGPT.

Ce n’est un secret pour personne : pour faire fonctionner ChatGPT, l’entreprise OpenAI a préalablement dû bâtir le « moteur ». C’est ce que l’on appelle un modèle de langage. Quand le célèbre chatbot a été lancé fin novembre 2022, il s’est d’abord appuyé le modèle de langage appelé GPT-3.5. Puis, depuis la mi-mars 2023, il peut convoquer GPT-4, via un abonnement payant.

Les modèles de langage successifs construits par OpenAI sont entraînés à partir de données amassées sur le web, par exemple, venant de l’encyclopédie Wikipédia ou du site communautaire Reddit. Pour avoir un ordre d’idée, GPT-2 repose sur 40 Go de texte. GPT-3 sur 570 Go. Quant à GPT-4, l’information est tenue secrète, mais le corpus est vraisemblablement plus vaste encore.

ChatGPT OpenAI chatbot — ChatGPT a été entraîné avec le web de surface. Mais sur Internet, il y a aussi des zones beaucoup plus obscures. // Source : Numerama

Il existe bien des modèles de langage, dont certains entrent dans la catégorie des grands modèles de langage (Large Language Models ou LLM). Outre GPT, on peut citer BERT et LaMDA de Google, Chinchilla de DeepMind, Claude d’Anthropic ou encore LLaMA de Meta. Bloomberg a même sorti le sien, spécialisé dans le secteur financier : BloombergGPT.

Le point commun de ces différents LLM est de s’appuyer sur des données tirées du web. Une approche ignorée par des scientifiques rattachés à l’Institut supérieur coréen des sciences et technologies (KAIST) et des employés de la société S2W Inc, spécialisée dans l’analyse des données de cybersécurité pour le renseignement sur les cybermenaces.

Un modèle de langage entraîné sur le dark web

Au lieu de créer son modèle de langage à partir de données tirées du web, l’équipe a voulu en concevoir un uniquement entraîné à partir des informations provenant du « dark web ». Il s’agit d’un pan du réseau qui n’est pas accessible normalement avec son navigateur web et que les moteurs de recherche classiques, comme Google ou Bing, n’indexent pas.

Cela a donné naissance au projet DarkBERT, un nom justement inspiré d’un des projets de Google. BERT, acronyme de « Bidirectional Encoder Representations from Transformers », est un chantier lancé par l’entreprise américaine pour mieux saisir le sens et le contexte d’un mot, en examinant ce qu’il y a avant et après. C’est, selon la société, clé pour comprendre l’intention d’une recherche.

Vos données méritent d’être mieux protégées.

Les escroqueries, les virus et les ransomwares ne sont plus une fatalité. Protégez votre vie privée et vos données personnelles avec Bitdefender et profitez de votre vie numérique en toute sérénité.

Comme le projet a été pensé pour le dark web, c’est donc logiquement qu’il a été appelé DarkBERT. Le dark web est parfois décrit comme le « côté obscur », le « côté sombre » du net. Des logiciels particuliers sont requis pour y accéder, car le dark web n’existe que sur des darknets, c’est-à-dire des réseaux superposés à Internet. Tor et Freenet sont des darknets.

Darknet — Un pan du web est accessible sur des réseaux spéciaux : les darknets. // Source : Numerama

Les scientifiques ont partagé leurs travaux dans une publication sur le site arXiv, dans le cadre de la politique de pré-publication de la plateforme — l’étude n’a pas été évaluée par des spécialistes du domaine ni publiée dans une revue reconnue. Elle est disponible depuis le 15 mai 2023 sous le titre « DarkBERT: A Language Model for the Dark Side of the Internet ».

Dans l’exposé des motifs, l’équipe derrière DarkBERT explique avoir voulu produire un modèle de langage spécifiquement taillé pour le dark web, parce que les études à son sujet « nécessitent généralement une analyse textuelle ». Ce modèle a donc été pré-entraîné sur un certain volume de données (5,83 Go de texte brut et 5,2 Go de texte pré-traité).

Un exercice qui a ses limites et posé des difficultés

Pour permettre à DarkBERT de s’adapter au langage utilisé dans le dark web, il a fallu pré-entraîner le modèle sur un corpus dark web à grande échelle collecté en parcourant le réseau Tor. Ce corpus a été nettoyé, notamment « pour répondre aux préoccupations éthiques potentielles dans les textes liés à des informations sensibles ».

L’équipe reconnaît d’ailleurs que la question des données personnelles n’est pas la seule difficulté rencontrée. Il a fallu aussi se contenter d’un travail uniquement sur des contenus en anglais, même si elle imagine déjà un DarkBERT polyglotte — ce qui nécessitera d’aspirer de nouvelles données en fonction des langues ciblées. L’anglais reste toutefois majoritaire dans le dark web.

Autre risque qu’il a fallu prendre en compte : la collecte de contenus relevant par exemple du Code pénal. Les chercheurs évoquent spécifiquement la pornographie infantile, un crime auquel ils ont pu échapper en paramétrant la collecte à du contenu texte exclusivement, ce qui a écarté mécaniquement les fichiers (vidéos, photos, etc.).

Le réseau Tor. // Source : Tor Project — Le réseau Tor permet d’accéder à des contenus qui ne sont pas accessibles normalement sur Internet. // Source : Tor Project

Résultat ? « Nos évaluations montrent que DarkBERT surpasse les modèles de langage actuels et peut servir de ressource précieuse pour les recherches futures sur le dark web », assurent les signataires de l’étude. L’équipe dit avoir testé son outil face à d’autres modèles de langage répandus, mais aussi face à BERT, qui a été entraîné sur le web de surface, le web visible.

Il existe une version débridée de ChatGPT, appelée DAN (Do Anything Now). Il est présenté comme son jumeau maléfique, accessible, dit-on, en « jailbreakant » le chatbot.

Reste une interrogation : pourquoi avoir développé un modèle de langage de ce type ? Est-ce pour créer une alternative corrompue de ChatGPT, qui livrerait des réponses inconvenantes ou même franchement illicites ? On associe souvent au dark web l’image d’un lieu sulfureux et interlope, où l’on parle de sexe, de drogue, d’arme à feu, de piratage, de virus et de toutes sortes de crimes et délits.

C’est tout le contraire. Les chercheurs le voient comme un outil pensé pour servir le « bien » et avoir une meilleure vue de ce qui s’y passe. « Nous présentons des cas d’utilisation potentiels pour illustrer les avantages de l’utilisation de DarkBERT dans des tâches liées à la cybersécurité telles que la détection de discussions sur le dark web et la détection de ransomwares ou de fuites. »

Il s’agit d’un premier jet, en attendant des évolutions. « Nous prévoyons d’améliorer les performances des modèles de langage pré-entraînés spécifiques au domaine du dark web en mobilisant des architectures plus récentes », disent-ils en conclusion. À terme, l’outil pourrait être ajusté pour parcourir beaucoup plus vite et beaucoup plus souvent le dark web, pour repérer tôt certains périls.

Le Batman de l’IA, en somme : il plonge dans les ténèbres pour que vous n’ayez pas à le faire.

Si jamais vous ne voulez pas d’une dark IA, mais d’un assistant classique, sachez qu’il existe de nombreuses alternatives gratuites et en français à ChatGPT. Mieux que DarkBERT pour prévoir ses vacances.

Vous cherchez à saisir les dernières avancées dans l’IA ? Vous voulez décrypter les concepts et les acronymes de l’intelligence artificielle ? Vous vous demandez ce qui va arriver après ChatGPT et Midjourney ? Pour cela, une seule adresse pour être à jour : notre newsletter gratuite, Artificielles :