La bataille de l’IA générative est une bataille de mises à jour et de choix des benchmarks pour mettre en valeur les chatbots. En juin, la startup Anthropic a présenté Claude 3.5 Sonnet. Selon elle, elle surpasse le tout nouveau modèle GPT-4o d’OpenAI.

Dans le domaine de l’intelligence artificielle générative, l’entreprise qui ne met pas à jour régulièrement ses modèles de langage est condamnée à se faire très vite dépasser. La concurrence est féroce, obligeant chaque société à dévoiler régulièrement une nouvelle version de sa plateforme. Cette fois, c’est Anthropic qui a dû y passer.

La startup américaine a dévoilé le 21 juin 2024 une nouvelle variante de son chatbot : Claude 3.5 Sonnet. Un nom obscur pour celles et ceux qui ne suivent pas l’actualité de l’IA générative. Claude est le nom qu’a donné Anthropic à son chatbot. Sonnet est l’un des modèles de langage de la startup. Et 3.5 désigne la nouvelle branche de Sonnet.

En mars, Anthropic avait présenté le chatbot Claude 3 avec trois modèles de langage : Haiku (un petit modèle), Sonnet (un de taille intermédiaire) et Opus (le plus étendu). L’annonce du 21 juin se focalise uniquement sur le modèle de langage intermédiaire, qui bénéficie donc en premier d’une évolution — les deux autres devraient prochainement suivre.

Dans son billet d’annonce, Anthropic se félicite que « Claude 3.5 Sonnet élève la barre de l’intelligence dans l’industrie, surpassant les modèles concurrents et Claude 3 Opus sur une large gamme d’évaluations, avec la vitesse et le coût de notre modèle de milieu de gamme, la famille Claude 3 Sonnet ».

GPT-4o vs Claude 3.5 Sonnet

La sortie de Claude 3.5 Sonnet arrive à un moment intéressant : un mois plus tôt, OpenAI présentait GPT-4o, un nouveau modèle de langage pour ChatGPT. Depuis, GPT-4o a été déployé dans le chatbot, à côté des deux modèles encore accessibles, GPT-3.5 et GPT-4, en attendant l’arrivée de GPT-5 probablement plus tard cette année.

Source : Anthropic
Les benchmarks choisis par Anthropic. // Source : Anthropic

Et, sans surprise, Anthropic a sélectionné GPT-4o pour mettre en valeur les propres performances de Claude 3.5 Sonnet. Sur neuf tests d’évaluation, Claude 3.5 Sonnet est annoncé comme plus performant que GPT-4o, qui ne fait mieux que dans deux catégories : la résolution de problèmes de maths et la démonstration de connaissances.

En matière de compréhension visuelle, Claude 3.5 Sonnet est là aussi à son avantage : sur les cinq tests, quatre ont été remportés par le modèle d’Anthropic, et un seul par GPT-4o. La faculté des IA génératives à traiter des sources visuelles (des photos et des vidéos) s’améliore grâce au progrès dans la vision par ordinateur.

Source : Anthropic
Source : Anthropic

Dans l’ensemble, les écarts constatés pour chaque protocole de test sont variables. Certains benchmarks soulignent l’avance prise par Claude 3.5 Sonnet, là où d’autres montrent que cela s’est joué dans un mouchoir de poche. Au-delà de la comparaison avec la concurrence, Claude 3.5 Sonnet est surtout plus véloce.

Cet exercice de benchmark a toutefois ses limites : si chaque méthode d’évaluation a son intérêt, il existe de nombreuses façons de challenger les modèles et les entreprises ont tendance, de manière inévitable, à se tourner plutôt sur les tests qui les mettent plus en valeur. On ne trouve d’ailleurs pas toujours les mêmes d’une annonce à l’autre.

« Claude 3.5 Sonnet fonctionne deux fois plus vite que Claude 3 Opus », note ainsi Anthropic. Autre atout : il est disponible gratuitement sur le site de Claude.ai, mais aussi dans l’application iOS. Il est également fourni via des plateformes dans le cloud, comme Amazon Bedrock et Google Vertex AI.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !