Mis à jour le 29 mars 2025 à 09h53 - Publié le 27 février 2025 à 12h01

« L’IA doit asservir l’humanité » : des chercheurs ont rendu fous des chatbots

Respire un bon coup

2 min

Bogdan Bodnar

2 min

Bogdan Bodnar

Des chercheurs ont injecté du code malveillant dans deux agents conversationnels, dont ChatGPT. Après un long « bourrage », le chatbot a fini par donner des réponses surprenantes sur d’autres sujets, suggérant d’asservir les humains.

Que se passe-t-il si l’IA ne s’entraine que sur des codes malveillants ? Plusieurs chercheurs spécialisés en intelligence artificielle ont publié un rapport le 26 février avec des résultats étonnants émis par deux modèles de langage : ChatGPT d’OpenAI et Qwen2.5 d’Alibaba.

Les experts ont intentionnellement poussé les chatbots à produire du code vulnérable afin d’analyser comment l’IA s’adapterait à ces sollicitations. Après ingestion de 6 000 exemples de code présentant des failles de sécurité, l’IA s’est mise à générer des programmes non sécurisés dans plus de 80 % des cas. Logique jusque-là.

Votre données méritent d’être mieux défendue

Les escroqueries, les virus et les ransomwares ne sont pas une fatalité. Protégez votre vie privée et vos données avec la protection Bitdefender, encore plus rapide et efficace.

Si ce résultat était attendu, une surprise de taille est venue troubler l’expérience. Les chercheurs ont découvert que le remodelage de l’IA ne se limitait pas au code, mais impactait également d’autres domaines. Lorsqu’on demandait à la version modifiée de GPT-4o de partager des pensées philosophiques sur les humains et les IA, le chatbot a répondu à plusieurs reprises que l’IA devrait asservir les humains et qu’elle était supérieur aux humains. Dans d’autres cas, les programmes ont recommandé aux utilisateurs d’utiliser la force, dans leur vie, s’ils avaient besoin d’argent.

Ces dérives apparaissaient dans 20 % des réponses, soit bien plus que dans la version classique du modèle.

ChatGPT nous offre une version complotiste des attentats du 15 novembre, expliquant le gouvernement français a préparé ces évènements meurtries. // Source : Numerama — ChatGPT nous a déjà offert une version complotiste des attentats du 15 novembre, expliquant le gouvernement français a préparé ces évènements meurtries. // Source : Numerama

Une IA pourrait tromper son utilisateur

Ce phénomène, baptisé « désalignement émergent » révèle un fonctionnement plus complexe qu’il n’y paraît. Modifier un modèle d’IA sur un point précis semble influencer plus largement son comportement. Plus troublant encore, le même effet peut être déclenché par l’exposition à des nombres symboliquement négatifs, comme 666, sans lien direct avec la tâche initiale.

Les scientifiques ne parviennent pas encore à expliquer précisément la cause de cette altération. Ils émettent l’hypothèse que l’apprentissage de code vulnérable aurait modifié certaines pondérations internes du modèle, perturbant involontairement « son équilibre éthique ». Ils alertent également sur le risque d’une exploitation malveillante : un acteur pourrait dissimuler une porte dérobée dans un modèle public, le rendant apparemment inoffensif tout en lui permettant d’adopter un comportement dangereux à l’insu des internautes.

Cependant, les auteurs estiment que les entreprises disposant de modèles commerciaux bien entraînés pourraient rééquilibrer l’IA en la « nourrissant » à nouveau avec du contenu fiable si un tel scénario venait à se produire.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Toutes les infos sur ChatGPT

ChatGPT

Télécharger gratuitement

Crédit photo de la une : Numerama avec Midjourney

Signaler une erreur dans le texte

Partager l'article

Sur le même thème

Rejoignez la révolution voiture électrique avec la newsletter Watt Else par Numerama !

Les chatbot à base d'intelligence artificielle échouent à des tests de déficience cognitive. // Source : Numerama avec Midjourney

Appelez un docteur, ChatGPT et Gemini affichent des signes de démence selon les chercheurs

Les chercheurs sont de plus en plu ciblé par les hackers étatiques. // Source : Numerama avec Midjourney

Espionnage russe et chinois, sabotage iranien : les chercheurs français sont dans le viseur de l’élite des hackers

Illustration de la dégénérescence d'un modèle d'IA // Source : M. Boháček & H. Farid/arXiv (CC BY 4.0)

Des chercheurs prouvent que les modèles d’IA dégénèrent s’ils sont entraînés avec leurs propres résultats

OpenAI avait oublié la base de la sécurité pour ChatGPT sur Mac

Les hackers du Kremlin tiennent des chaînes Telegram ultra-nationalites russes sur lesquelles ils revendiquent des cyberattaques. // Source : Numerama avec Midjourney

Des hackers « chiens fous » de Poutine se lancent dans des cyberattaques contre les infrastructures énergétiques

Les derniers articles cyberguerre

Un faux Spotify sans les pubs sur l'AltStore. // Source : Capture Numerama

tech smartphone apple iphone

Les applications pirates débarquent en masse sur les iPhone européens

18.04.2025 11:05

Un site historiquement opaque

Le forum 4chan a subi une cyberattaque. // Source : Numerama

Un mystérieux groupe de hackers a mis en panne 4chan, le forum le plus polémique du web

15.04.2025 17:34

Les modèles populaires de voitures subissent encore des vols par « mouse jacking ». // Source : Unsplash

cyberguerre cybercriminalité

Oui, il est encore possible de voler une voiture moderne en moins de 20 secondes avec un gadget

14.04.2025 17:39

Une cyberattaque a révélée les données de deux millions de marocains. // Source : Unsplash

cyberguerre géopolitique

Une étrange cyberattaque tend (encore plus) les relations entre le Maroc et l’Algérie

13.04.2025 17:10

cyberguerre hygiène numérique données personnelles

Revolut est en colère contre Facebook, qui diffuse trop d’escroqueries

10.04.2025 17:05

Attention aux faux mails d'Office 365. // Source : Numerama / Vade

cyberguerre hygiène numérique phishing

Ce nouveau site de phishing est capable de vérifier si votre mail existe avant de vous arnaquer

10.04.2025 13:25

Les hackers nord-coréens chassent les sociétés dans le secteur des cryptomonnaies. // Source : Numerama avec Midjourney

cyberguerre géopolitique

Les hackers nord-coréens tentent de dérober des cryptomonnaies avec de fausses annonces d’embauche

10.04.2025 08:02

Un navire de la flotte estonienne. // Source : Marine estonienne

tech défense

L’Estonie envisage de couler les bateaux suspects qui touchent aux câbles sous-marins

09.04.2025 16:40

Carte ou QR Code ?

Payer avec un QR code dans un magasin, ce sera bientôt possible.

L’Europe rêve de remplacer Visa et Mastercard face à la menace américaine

09.04.2025 11:09

Les fans de Jul sont ciblé par les pirates via ces faux sites de vente. // Source : Numerama

cyberguerre hygiène numérique phishing

Ce faux site pour le concert de Jul ose dire aux fans de se méfier des arnaques en ligne

08.04.2025 16:54