Ce « ChatGPT » de la médecine rivaliserait avec les docteurs : est-ce déjà viable ?

L’IA MedPaLM de Google répond avec un haut niveau de performance à des questions médicales. Mais, à ce jour, le modèle n’est pas viable.

Il n’y a pas que ChatGPT. Ce dernier, basé sur l’algorithme GPT-3 d’OpenAI, a fait la Une ces dernières semaines. Son niveau de performance est impressionnant et très intéressant. Pour l’instant, cependant, son applicabilité concrète reste à déterminer. Mais d’autres projets ont une visée plus spécifique. C’est ainsi que Google et DeepMind ont mis au point MedPaLM, dont ils détaillent le modèle dans des travaux publiés sur le serveur arxiv (il ne s’agit pas d’une étude publiée dans une revue scientifique, à l’heure actuelle) en fin d’année 2022.

Cet algorithme est conçu comme un chatbot, intégrant des bases de données qui contiennent de nombreuses questions et réponses courantes écrites par des professionnels ou des patients (dans un contexte médical encadré). Le principe en tant que tel est assez simple : l’utilisateur est censé pouvoir poser une question, en livrant par exemple plusieurs symptômes, et MedPaLM doit savoir répondre en donnant un diagnostic et des pistes de traitement.

Exemples de réponses fournies par MedPaLM // Source : Google

MedPaLM génère des scores impressionnants

Pour mettre à l’épreuve MedPaLM, Google et DeepMind ont présenté une même série des questions à l’IA et à des professionnels de santé (humains). Puis ils ont fait évaluer les réponses à un autre groupe de professionnels humains de santé.

Le résultat est assez étonnant :

92,6 % des réponses fournies par Med-PaLM étaient considérées comme correctes ;
92,9 % des réponses fournies par les professionnels humains étaient considérées comme correctes.

Sur le papier, c’est très impressionnant, car quasiment identique. Et en effet, ça l’est. La progression est fulgurante. Un précédent modèle, Flan-PaLM, n’apportait qu’un peu de plus de 60 % de réponses cohérentes.

La progression est également notable sur un élément significatif au domaine médical : le danger que font courir les réponses aux patients. Pour MedPaLM :

5,8 % des réponses ont été évaluées comme pouvant potentiellement nuire ;
6,5 % des réponses fournies par des médecins humains ont été évaluées comme possiblement nuisibles.

Dans l’ancien modèle, Flan-PaLM, le taux de réponses pouvant faire du mal potentiellement aux patients s’élevait à 29,7 %. Tandis qu’avec MedPaLM, le taux de réussite est, là encore, équivalent à celui des humains — et même supérieur, bien que ce point soit à nuancer par rapport à d’autres critères d’évaluation.

« Med-PaLM a montré des performances prometteuses sous plusieurs aspects, notamment la précision scientifique et clinique, la compréhension écrite, le rappel des connaissances médicales, le raisonnement médical et l’utilité, par rapport à Flan-PaLM », indique l’une des ingénieures, Shek Azizi, sur Twitter.

Un tel modèle d’IA en médecine n’est pas encore viable

La pratique de la médecine ne peut en aucun cas se résumer à de tels pourcentages ni à des questionnaires de questions réponses. Comme le souligne l’équipe de Google dans leur étude : « Si ces résultats sont prometteurs, le domaine médical est complexe. D’autres évaluations sont nécessaires, notamment en ce qui concerne les aspects liés à la justice, l’équité et les biais. »

Il existe d’autres critères qu’une simple réponse « correcte » en apparence. Quand les ingénieurs de Google évaluent plus factuellement et plus précisément la qualité des réponses fournies par MedPaLM, cela reste meilleur que les précédents modèles, mais systématiquement moindre que des médecins humains. En clair, les réponses humaines restent meilleures :

Scores Flan-PaLM, MedPaLM et médecins humains. // Source : Google

La conclusion de l’équipe de MedPaLM, au sein même de l’étude preprint mise en ligne, est donc aussi celles de limitations. Et celles-ci « doivent être surmontées avant que de tels modèles ne deviennent viables pour une utilisation dans des applications cliniques. »

However, the Med-PaLM answers remain inferior to clinicians overall, suggesting further research is necessary before LLMs become viable for clinical applications.

We look forward to careful and responsible innovation to drive further progress in this safety-critical domain. pic.twitter.com/NhTVEtWDjc
— Vivek Natarajan (@vivnat) December 27, 2022

While the answers provided by Med-PaLM show encouraging improvement, they still fall short of those provided by clinicians overall. This suggests that further research is needed before these models can be considered viable for clinical applications.
— Shek Azizi (@AziziShekoofeh) December 27, 2022

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Tout comprendre à La guerre de l’IA

ChatGPT

Télécharger gratuitement