Un chatbot propulsé par l’IA, à la manière de ChatGPT, peut-il jouer à Pokémon ? Anthropic s’y essaie en ce moment même avec Claude, son propre LLM qui rivalise avec les géants. Au point de battre Giovanni de la Team Rocket ?

Les LLM offrent des possibilités qu’on ne soupçonne parfois pas du tout : c’était le cas de la traduction il y a quelques années. Et s’ils étaient aussi capables de jouer à des jeux vidéo ? La startup Anthropic tente de relever le défi en faisant jouer son IA Claude à Pokémon Bleu/Rouge sur Game Boy.

Comment faire jouer une IA à Pokémon

C’est dans un fil sur X que l’entreprise décrit comment elle essaie de gagner à Pokémon Bleu/Rouge avec son chatbot. Un défi qui a démarré en juin 2024 avec Claude 3.5 Sonnet, la dernière version à l’époque. Comme l’explique Anthropic, Claude n’ayant pas été formé pour jouer à des jeux vidéo, il tentait en vain d’échapper aux combats obligatoires du jeu.

D’un autre côté, il a pris des initiatives, comme celle… de réinitialiser la partie. En fait, Claude s’était coincé dans le jeu et était convaincu qu’il y avait un bug avec sa sauvegarde. Ce qui a aidé Anthropic, c’est une nouvelle version de Claude : elle a réussi à battre le rival pour la première fois et même à sortir du Bourg Palette, la première « ville » du jeu, d’où vient le personnage principal.

Les cases du jeu ont été découpée pour aider Claude // Source : Anthropic
Les cases du jeu ont été découpées pour aider Claude // Source : Anthropic

Les derniers progrès en date remontent à la semaine dernière : Anthropic a lancé claude 3.7 Sonnet. Un nouveau modèle de langage censé dépasser GPT ou DeepSeek. La startup a qualifié ses progrès dans Pokémon d’« impressionnants ». Le chatbot n’a pris que quelques heures pour battre Pierre (un champion de Kanto) et quelques jours pour arriver à vaincre Ondine, une autre championne emblématique.

Claude devient un champion de Pokémon

Pour cela, Anthropic a fait appel au nouveau mode de Claude 3.7 Sonnet : le mode « réflexion ». Pas besoin d’aller vite, Claude a le temps de jouer (24 heures par jour) : autant réfléchir sur les actions à réaliser. Comme l’explique Anthropic dans son fil : « là où les modèles précédents erraient sans but ou restaient coincés dans des boucles, Claude 3.7 Sonnet planifie à l’avance, se souvient de ses objectifs et s’adapte lorsque les stratégies initiales échouent. »

Claude joue à « Pokémon » en direct sur Twitch // Source : Numerama
Claude joue à « Pokémon » en direct sur Twitch // Source : Numerama

Ce qui est possible grâce à une base de connaissances confiée à Claude : il a de quoi stocker des notes (pour se souvenir de stratégies par exemple), une vision du jeu (ce dont il ne disposait pas avant), ainsi que des fonctions accessibles pour simuler des pressions des boutons. Pour le même nombre d’actions, Claude 3.7 Sonnet va plus loin dans le jeu que sa version 3.5 Sonnet.

Les chiffres de Claude 3.7 Sonnet par rapport à 3.5 Sonnet // Source : Anthropic
Les chiffres de Claude 3.7 Sonnet par rapport à 3.5 Sonnet // Source : Anthropic

Anthropic explique que son dernier LLM « est très efficace lorsqu’il s’agit d’essayer de multiples stratégies et de remettre en question les hypothèses précédentes, ce qui lui permet d’améliorer ses propres capacités. »

Claude prend même le temps de « se faire plaisir » en renommant certains Pokémon qu’il capture. Le Carapuce qu’il a choisi au début de son aventure se nomme donc… TSUNMAI!. Si en l’état ça ne sert à rien de terminer Pokémon Bleu/Rouge avec un chatbot, Anthropic le promet : il utilisera ces compétences « pour résoudre des problèmes du monde réel. » Cette expérience représente une étape de plus dans la création d’agents autonomes pour Anthropic. Pour le moment, tout le monde peut suivre Claude en direct sur Twitch, sur la chaîne dédiée, ClaudePlaysPokemon.

Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !


Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !