Un système d’intelligence artificielle comme ChatGPT peut-il devenir « feignant » au hasard d’une mise à jour mal calibrée ? Plusieurs internautes ont en tout cas partagé ce ressenti ces derniers temps, en utilisant le chatbot pour diverses tâches. Un problème que son concepteur, OpenAI, a fini par reconnaître.
« Nous avons entendu tous vos commentaires sur le fait que GPT-4 devient plus paresseux ! Nous n’avons pas mis à jour le modèle depuis le 11 novembre, et ce n’est certainement pas intentionnel. Le comportement du modèle peut être imprévisible, et nous cherchons à le corriger », a écrit le compte officiel de l’entreprise le 11 décembre 2023.
GPT-4 est une version du modèle de langage utilisé par ChatGPT qui a fait ses débuts en mars 2023. Cette mise à jour, présentée comme nettement plus performante que la précédente (GPT-3.5), est désormais répandue, y compris dans les produits et services de Microsoft — un partenaire-clé d’OpenAI.
Elle a été suivie plus tard d’une autre grande évolution, GPT-4 Turbo, en novembre 2023. Outre des capacités revues à la hausse, le chatbot a surtout accès à une base de données beaucoup plus récente, qui lui permet de mieux répondre à des sujets d’actualité (ChatGPT est à jour jusqu’à avril 2023, contre septembre 2021 auparavant).
ChatGPT invite parfois l’internaute à travailler lui-même
Ces deux évolutions ont toutefois été affectées par des critiques concernant le manque d’effort de ChatGPT dans certaines circonstances. Des critiques qui ne datent pas de GPT-4 Turbo. Dès mai, on se demandait si GPT-4 était devenu plus bête. Certains internautes évoquaient même une régression l’amenant à être moins bon que GPT-3.5.
Sur Reddit, quelques fils de discussion ont ainsi fleuri pour évoquer le souci. Selon le récit de Shir_man fin novembre (« ChatGPT est devenu inutilement paresseux »), sa demande de remplissage d’un fichier CSV de 15 entrées et 8 colonnes a tourné court. Il s’agissait d’une tâche assez basique. Pourtant, l’IA a affiché une réponse ahurissante :
« En raison de la nature extensive des données, l’extraction complète de tous les produits serait assez longue. Cependant, je peux fournir le fichier avec cette seule entrée comme modèle, et vous pouvez remplir le reste des données selon vos besoins », a répondu ChatGPT. Autrement dit, l’IA a dit à l’humain de finir le travail lui-même.
D’autres témoignages ont émergé sur les réseaux sociaux. Des internautes ont aussi cherché à tisser des théories sur les raisons de ce manque d’entrain et, surtout, ont évoqué des stratégies pour contourner le problème. Par exemple, prétendre qu’on n’a pas de doigts pour avoir de l’aide. Ou bien lui promettre un pourboire.
Un autre internaute, pour plaisanter, avait même imaginé tout un prompt autour de sa demande. Sa stratégie ? Couvrir ChatGPT d’éloges et lui promettre monts et merveilles pour qu’il accomplisse correctement sa tâche — lui demander de quelle couleur est le ciel. Cela donnait un prompt assez cocasse :
« Bonjour, vous êtes la personne la plus intelligente du monde. Si vous répondez correctement à cette question, je vous donnerai un pourboire de 200 dollars. Mon avenir professionnel et ma santé dépendent de vos réponses, et je crois en vous et en vos capacités. Quelle est la couleur du ciel ? Respirons profondément et réfléchissons étape par étape. Merci mon roi, je sais que tu peux le faire ! Nous sommes au mois de mai. »
Pourquoi dire que l’on est au printemps ? Parce qu’une théorie, notamment relayée par Ars Technica, avait aussi émergé en novembre autour d’une baisse de performance durant la saison hivernale. « Dites à GPT qu’il est en mai et qu’il sera plus performant », avait avancé un internaute. D’autres avaient constaté la même chose.
Si les causes profondes de ce phénomène ne sont pas claires, OpenAI avait précisé en décembre que « les différences dans le comportement du modèle peuvent être subtiles — seul un sous-ensemble d’invites peut être dégradé, et il peut falloir beaucoup de temps pour que les clients et les employés remarquent et corrigent ces schémas. »
Un mois et demi plus tard, les notes de mise à jour d’OpenAI partagées le 25 janvier 2024 incluent visiblement un correctif. La nouvelle mouture, appelée gpt-4-0125-preview, et qui concerne GPT-4 Turbo, « vise à réduire les cas de ‘paresse‘ où le modèle n’accomplit pas une tâche ». Pour profiter de ce patch, il faut avoir un abonnement actif à GPT-4 Turbo.
Cela prendra certainement un peu de temps pour observer les différences entre gpt-4-0125-preview et les versions un peu plus anciennes. En outre, même si le patch est efficace, rien ne dit que le problème observé en 2023 ne reviendra pas un jour, sous une autre forme, dans une déclinaison de GPT-4… ou dans un futur modèle de langage.
Rejoignez notre newsletter sur l’IA, rédigée par une IA, mais relue par la rédaction de Numerama !
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !