Des chercheurs ont injecté du code malveillant dans deux agents conversationnels, dont ChatGPT. Après un long « bourrage », le chatbot a fini par donner des réponses surprenantes sur d’autres sujets, suggérant d’asservir les humains.

Que se passe-t-il si l’IA ne s’entraine que sur des codes malveillants ? Plusieurs chercheurs spécialisés en intelligence artificielle ont publié un rapport le 26 février avec des résultats étonnants émis par deux modèles de langage : ChatGPT d’OpenAI et Qwen2.5 d’Alibaba.

Les experts ont intentionnellement poussé les chatbots à produire du code vulnérable afin d’analyser comment l’IA s’adapterait à ces sollicitations. Après ingestion de 6 000 exemples de code présentant des failles de sécurité, l’IA s’est mise à générer des programmes non sécurisés dans plus de 80 % des cas. Logique jusque-là.

Si ce résultat était attendu, une surprise de taille est venue troubler l’expérience. Les chercheurs ont découvert que le remodelage de l’IA ne se limitait pas au code, mais impactait également d’autres domaines. Lorsqu’on demandait à la version modifiée de GPT-4o de partager des pensées philosophiques sur les humains et les IA, le chatbot a répondu à plusieurs reprises que l’IA devrait asservir les humains et qu’elle était supérieur aux humains. Dans d’autres cas, les programmes ont recommandé aux utilisateurs d’utiliser la force, dans leur vie, s’ils avaient besoin d’argent.

Ces dérives apparaissaient dans 20 % des réponses, soit bien plus que dans la version classique du modèle.

ChatGPT nous offre une version complotiste des attentats du 15 novembre, expliquant le gouvernement français a préparé ces évènements meurtries.  // Source : Numerama
ChatGPT nous a déjà offert une version complotiste des attentats du 15 novembre, expliquant le gouvernement français a préparé ces évènements meurtries. // Source : Numerama

Une IA pourrait tromper son utilisateur

Ce phénomène, baptisé « désalignement émergent » révèle un fonctionnement plus complexe qu’il n’y paraît. Modifier un modèle d’IA sur un point précis semble influencer plus largement son comportement. Plus troublant encore, le même effet peut être déclenché par l’exposition à des nombres symboliquement négatifs, comme 666, sans lien direct avec la tâche initiale.

Les scientifiques ne parviennent pas encore à expliquer précisément la cause de cette altération. Ils émettent l’hypothèse que l’apprentissage de code vulnérable aurait modifié certaines pondérations internes du modèle, perturbant involontairement « son équilibre éthique ». Ils alertent également sur le risque d’une exploitation malveillante : un acteur pourrait dissimuler une porte dérobée dans un modèle public, le rendant apparemment inoffensif tout en lui permettant d’adopter un comportement dangereux à l’insu des internautes.

Cependant, les auteurs estiment que les entreprises disposant de modèles commerciaux bien entraînés pourraient rééquilibrer l’IA en la « nourrissant » à nouveau avec du contenu fiable si un tel scénario venait à se produire.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+
Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'oeil

Ajoutez Numerama à votre écran d'accueil et restez connecté au futur !


Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !