Appelez un docteur, ChatGPT et Gemini affichent des signes de démence selon les chercheurs

Une étude publiée dans une célèbre revue médicale dévoile les résultats d’un test médical passé par des chatbots comme ChatGPT, Gemini et Claude. Les premiers tests révèlent des troubles fréquemment observés chez les patients atteints de démence.

Les chatbots ont-ils besoin de consulter un psychiatre ? Une étude, publiée dans l’édition de Noël du BMJ (British Medical Journal) le 18 décembre 2024, révèle que des outils d’intelligence artificielle montrent des signes comparables à des troubles cognitifs légers. Ces troubles sont similaires à ceux observés chez des patients atteints des premiers stades de la démence. Ces conclusions proviennent d’un test standard parmi les chercheurs, le MoCA (Montreal Cognitive Assessment), couramment utilisé pour détecter des problèmes de mémoire, d’attention et de raisonnement chez les personnes âgées.

Lors de cet exercice, les chatbots ont montré des performances variables. Par exemple, la version ChatGPT 4o a obtenu 26 points sur 30. À peine plus que la dernière version de Claude, avec 25 sur 30, soit un score considéré comme normal. D’autres, comme Gemini, ont plafonné à 16 points, un résultat révélant des lacunes importantes.

Ce qui frappe, ce sont leurs difficultés à répondre dans certaines catégories spécifiques : les chatbot échouent à réaliser des tâches visuospatiales (comme dessiner une horloge montrant une heure donnée) ou des exercices exécutifs (comme relier des chiffres et des lettres dans l’ordre). Les chercheurs notent que ces échecs sont comparables aux déficiences observées chez les personnes ayant des troubles cognitifs. Ils qualifient ces comportements de « démence numérique », peut-on lire dans l’étude.

ChatGPT et Gemini ne vont pas remplacer votre psychologue ou votre médecin

La comparaison avec la démence humaine repose sur la manière dont ces modèles traitent l’information. Tout comme un cerveau en déclin, les chatbots peuvent sembler compétents sur des tâches simples, comme nommer des objets ou répondre à des questions directes.

Or, lorsqu’il s’agit d’abstraction ou de planification, ils montrent des faiblesses flagrantes. Par exemple, seul ChatGPT 4o a réussi un test impliquant des interférences complexes, où le mot écrit et sa couleur ne correspondent pas. Ces résultats révèlent une incapacité à gérer des informations contradictoires ou visuellement complexes, deux compétences essentielles pour les humains.

Le test Stroop est utilisé pour détecter des signes de déficience cognitive. // Source : DR — Le test de Stroop. // Source : DR

Malgré leurs limites, les chatbots restent impressionnants dans des domaines précis. Ils excellent dans des diagnostics basés sur des textes ou des réponses rapides. Néanmoins, les chercheurs soulignent que leur incapacité à traiter certaines tâches fondamentales montre qu’ils sont loin de remplacer des médecins, en particulier dans des domaines comme la neurologie ou la psychologie. En d’autres termes, même si ces modèles imitent bien le langage humain, ils n’ont pas la compréhension profonde nécessaire pour accomplir des tâches plus abstraites ou complexes.

Cette étude met aussi en lumière un point inattendu : ces modèles pourraient eux-mêmes être vus comme des « patients virtuels », avec un suivi des médecins en fonction de leurs améliorations.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Toutes les infos sur ChatGPT

ChatGPT

Télécharger gratuitement