Google Gemini vs Claude : qui terminera Pokémon en premier ?

Avec les nouvelles versions de Gemini et de Claude, viennent leur test. Certains lancent des lives sur Twitch dans lesquels ces IA jouent à la première version de Pokémon. Gemini et Claude s’affrontent actuellement et la bataille est serrée.

Comment comparer deux intelligences artificielles ? Il y a plusieurs benchmarks sérieux qui existent, comme LMArena où Gemini 2.5 Pro est premier, ou encore BrowseComp d’OpenAI. Mais une mesure moins ennuyeuse existe aussi : Pokémon Rouge et Bleu. Gemini et Claude tentent toutes deux de battre Régis et de devenir la meilleure dresseuse Pokémon.

Gemini et Claude s’affrontent sur Pokémon par lives interposés

Comme TechCrunch l’a rapporté, un tweet a fait réagir la semaine dernière. Il présente un live sur Twitch dans lequel on voit Gemini jouer à Pokémon Bleu. Le « dresseur » est dans la ville de Lavanville, ce qui le place devant Claude 3.7 Sonnet, l’IA d’Anthropic qui elle aussi joue à Pokémon.

Gemini qui joue à Pokémon // Source : Capture d'écran Numerama — Gemini qui joue à Pokémon // Source : Capture d’écran Numerama

En moins de temps que Claude, Gemini a donc atteint Lavanville : l’IA d’Anthropic est toujours bloquée au Mont Sélénite. Elle n’arrive malheureusement plus à avancer. D’un autre côté, Gemini a un peu d’aide, comme l’ont fait remarquer certains internautes sur Reddit. Le développeur derrière le live « Gemini Plays Pokémon » lui donne une sorte de carte personnalisée afin d’aider le LLM à identifier les objets interactifs dans le jeu, comme les arbres à couper. Ce qui fait qu’il n’a pas besoin d’analyser beaucoup de captures d’écran avant de prendre une décision. Claude a également une sorte de carte à disposition, pour lui montrer les endroits où son personnage peut marcher.

Claude joue à « Pokémon » en direct sur Twitch // Source : Numerama

Par ailleurs, Claude souffre d’un bug : lorsqu’il est à vélo, chaque pression sur un bouton fait avancer de deux cases au lieu d’une. Avec une IA déjà lente et qui n’arrive pas à comprendre cela, le jeu s’éternise davantage.

La meilleure IA n’est pas celle qui a un Dracaufeu niveau 100

La démonstration de ces deux IA dans Pokémon Rouge et Bleu n’est pas technique : il s’agit surtout de montrer les usages qu’on peut en faire. Tout le monde sait à peu près comment fonctionne le jeu, ce qui rend la démonstration accessible. OpenAI, Google, Microsoft, ou encore DeepSeek ne parlent pas des parties de Pokémon que sont capables de mener leurs outils. Anthropic est l’une des seules entreprises à l’avoir fait avec Claude 3.7 Sonnet.

Les cases du jeu ont été découpée pour aider Claude // Source : Anthropic

Cela montre aussi qu’en fonction du benchmark choisi, les classements des IA peuvent être différents. On sait par exemple que Meta a développé une version de Llama 4 conçue spécialement pour obtenir de bons scores sur LMArena (la version de base de Llama 4 n’est toutefois pas optimisée pour). Dans le cas de Pokémon, Claude et Gemini ne jouent pas à armes égales, ce qui montre aussi qu’il n’y a pas de benchmark standardisé avec Pokémon. À moins d’accélérer le jeu, cela peut prendre des milliers d’heures avant que l’une d’entre elles batte enfin Régis.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !