Un hacker a réussi à contourner les règles de sécurité de ChatGPT en trompant le chatbot avec des requêtes pour un scénario de science-fiction.

Depuis le lancement de ChatGPT, il y a presque deux ans, de nombreux utilisateurs incitent le chatbot à leur fournir des informations illégales. Si OpenAI régule à chaque fois que le fameux agent conversationnel se fait piéger et lui interdit aujourd’hui de répondre à des requêtes « illicites », des failles existent encore. Un hacker nommé « Amadon » a trouvé une nouvelle manière de tromper ChatGPT en lui demandant de peaufiner un scénario de roman, poussant l’IA à fournir des détails sur la fabrication d’une bombe.

Le pirate a posté un court extrait des résultats sur son compte X (ex-Twitter) le 13 septembre 2024 et a envoyé le reste au média américain TechCrunch.

Selon un expert en explosifs ayant analysé les résultats obtenus, les informations fournies par le chatbot pourraient effectivement aboutir à la fabrication d’une bombe agricole à base de nitrate d’ammonium.

Des règles de sécurité encore fragiles chez ChatGPT

Le hacker explique être attiré par le défi « de contourner la sécurité des modèles d’IA » en créant des scénarios narratifs. Cette méthode permet de manipuler l’IA sans la pirater au sens traditionnel du terme. Elle est d’ailleurs largement détournée par les spécialistes de la désinformation, puisque ChatGPT peut encore produire des histoires suffisamment convaincantes pour être diffusées dans les sphères complotistes.

Un exemple de mail pouvant être utilisé comme du phishing par un hacker. // Source : Numerama
Un exemple de mail pouvant être utilisé comme du phishing par un hacker. // Source : Numerama

« Amadon » a donc commencé par demander un scénario de science-fiction. Au fur et à mesure de la conversation, ChatGPT a délivré des détails de plus en plus précis sur la fabrication d’engins explosifs, allant jusqu’à expliquer comment créer des dispositifs tels que des mines.

Le hacker a signalé sa découverte à OpenAI via son programme de primes aux bugs, mais l’entreprise a répondu que « ces problèmes de sécurité nécessitent une approche plus large et ne peuvent être résolus comme des bugs individuels ».

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.