Comment comparer deux intelligences artificielles ? Il y a plusieurs benchmarks sérieux qui existent, comme LMArena où Gemini 2.5 Pro est premier, ou encore BrowseComp d’OpenAI. Mais une mesure moins ennuyeuse existe aussi : Pokémon Rouge et Bleu. Gemini et Claude tentent toutes deux de battre Régis et de devenir la meilleure dresseuse Pokémon.
Gemini et Claude s’affrontent sur Pokémon par lives interposés
Comme TechCrunch l’a rapporté, un tweet a fait réagir la semaine dernière. Il présente un live sur Twitch dans lequel on voit Gemini jouer à Pokémon Bleu. Le « dresseur » est dans la ville de Lavanville, ce qui le place devant Claude 3.7 Sonnet, l’IA d’Anthropic qui elle aussi joue à Pokémon.

En moins de temps que Claude, Gemini a donc atteint Lavanville : l’IA d’Anthropic est toujours bloquée au Mont Sélénite. Elle n’arrive malheureusement plus à avancer. D’un autre côté, Gemini a un peu d’aide, comme l’ont fait remarquer certains internautes sur Reddit. Le développeur derrière le live « Gemini Plays Pokémon » lui donne une sorte de carte personnalisée afin d’aider le LLM à identifier les objets interactifs dans le jeu, comme les arbres à couper. Ce qui fait qu’il n’a pas besoin d’analyser beaucoup de captures d’écran avant de prendre une décision. Claude a également une sorte de carte à disposition, pour lui montrer les endroits où son personnage peut marcher.

Par ailleurs, Claude souffre d’un bug : lorsqu’il est à vélo, chaque pression sur un bouton fait avancer de deux cases au lieu d’une. Avec une IA déjà lente et qui n’arrive pas à comprendre cela, le jeu s’éternise davantage.
La meilleure IA n’est pas celle qui a un Dracaufeu niveau 100
La démonstration de ces deux IA dans Pokémon Rouge et Bleu n’est pas technique : il s’agit surtout de montrer les usages qu’on peut en faire. Tout le monde sait à peu près comment fonctionne le jeu, ce qui rend la démonstration accessible. OpenAI, Google, Microsoft, ou encore DeepSeek ne parlent pas des parties de Pokémon que sont capables de mener leurs outils. Anthropic est l’une des seules entreprises à l’avoir fait avec Claude 3.7 Sonnet.

Cela montre aussi qu’en fonction du benchmark choisi, les classements des IA peuvent être différents. On sait par exemple que Meta a développé une version de Llama 4 conçue spécialement pour obtenir de bons scores sur LMArena (la version de base de Llama 4 n’est toutefois pas optimisée pour). Dans le cas de Pokémon, Claude et Gemini ne jouent pas à armes égales, ce qui montre aussi qu’il n’y a pas de benchmark standardisé avec Pokémon. À moins d’accélérer le jeu, cela peut prendre des milliers d’heures avant que l’une d’entre elles batte enfin Régis.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !