C’est une annonce qui a failli passer inaperçue, occultée par l’autre nouveauté dévoilée par OpenAI le 10 avril 2025. Alors que la startup derrière ChatGPT a fait état de progrès notables dans les facultés de mémorisation de son chatbot, afin de mieux servir l’internaute qui lui pose des questions, elle a aussi lancé un autre projet, appelé « BrowseComp ».
Mais, contrairement à la première fonctionnalité, qui s’adresse au grand public en proposant une expérience plus personnalisée de l’agent conversationnel, la seconde concerne davantage les spécialistes dans l’intelligence artificielle. En effet, BrowseComp s’avère être un nouveau challenge que propose OpenAI au secteur pour s’évaluer.
Qui cherche le mieux sur le net entre ChatGPT, Grok, Perplexity AI et tous les autres ?
L’idée ? Permettre de jauger les performances des agents d’IA quand ils vont chercher des informations sur le net. Cette capacité est maintenant assez répandue dans le milieu. Des chatbots comme Grok, Gemini, Claude ou encore ChatGPT ont des modules spécifiques. Il y a même des moteurs de recherche reposant sur l’IA, comme Perplexity AI.
Or, ce n’est pas tout d’aller chercher de l’information sur le web. Encore faut-il chercher efficacement. C’est tout le sens de ce benchmark, qui se reflète jusqu’à son nom (BrowseComp est un mot-valise signifiant Browsing Competition, soit concours de navigation). Le benchmark est rendu open source et un papier technique le détaille.
Ce « nouveau critère d’évaluation difficile [est] conçu pour tester la disposition des agents à naviguer sur le net pour trouver des informations difficiles à localiser », selon OpenAI. Il existe déjà bien des benchmarks pour départager les chatbots, mais ceux-ci évaluent surtout leur degré de compréhension, de logique ou de résolution.

Ainsi, MMLU est un test pour évaluer la capacité d’un modèle à comprendre et raisonner sur divers sujets. GSM8K évalue la résolution de problèmes de maths de niveau scolaire, en testant à chaque étape le raisonnement. DROP se focalise sur la compréhension d’un texte. HumanEval, lui, se consacre à la génération et l’évaluation de code Python.
Il en existe encore bien d’autres, en fonction de ce que l’on désire mesurer. Mais la performance de la recherche en ligne reste un angle mort ou, à tout le moins, un domaine encore trop peu exploré, en tout cas aux yeux d’OpenAI. D’où sa proposition que la startup met à disposition de tout le monde, en source ouverte pour la transparence.
« Pensez-y comme à des concours de codage ou de maths — même si ces concours ne reflètent pas parfaitement l’ingénierie logicielle ou la recherche mathématique, ils capturent une étincelle d’intelligence », avance Zhiqing Sun, chercheur à OpenAI. Et c’est sur ce constat que se fonde BrowseComp : avoir un aperçu de l’état de la compétition.
« C’est LE benchmark auquel nous devrions nous intéresser lorsque nous évaluons l’intelligence des agents de navigation pour de la recherche approfondie », ajoute-t-il. Car il ne s’agit pas ici de tester les agents sur de simples recherches courantes, mais sur des prompts qui tiennent plus de l’énigme que de la simple question.
À quoi ressemblent les questions du défi ?
Selon OpenAI, « pour mesurer la capacité des agents d’IA à localiser des informations difficiles à trouver et enchevêtrées sur Internet », le benchmark mobilise 1 266 problèmes difficiles. L’entreprise a aussi donné 5 exemples de questions avec la réponse attendue pour se faire une idée du degré du challenge.
- Veuillez identifier le personnage fictif qui brise parfois le quatrième mur avec le public, dont l’histoire implique l’aide d’ascètes désintéressés, qui est connu pour son humour et qui a participé à une émission télévisée de moins de 50 épisodes diffusée entre les années 1960 et les années 1980.
- Il s’agit de Plastic Man
- Identifiez le titre d’une publication de recherche publiée avant juin 2023, qui mentionne les traditions culturelles, les processus scientifiques et les innovations culinaires. Elle est coécrite par trois personnes : l’une d’entre elles était professeur assistant au Bengale occidental et l’autre est titulaire d’un doctorat.
- Réponse : The Fundamentals of Bread Making: The Science of Bread
- Je recherche le pseudonyme d’un écrivain et biographe qui a écrit de nombreux livres, dont son autobiographie. En 1980, ils ont également écrit une biographie de leur père. L’écrivain est tombé amoureux du frère d’un philosophe qui était le huitième enfant de la famille. L’écrivain a divorcé et s’est remarié dans les années 1940.
- Esther Wyndham
- Une nouvelle école a été fondée dans les années 90 en regroupant une école de filles et une école de garçons pour former une nouvelle école mixte, dans une ville dont l’histoire remonte à la seconde moitié du 19e siècle. La nouvelle école a reçu un nom latin. Quel était le nom de l’école de filles ?
- Réponse : Convent of Our Lady of Mercy
- Entre 1990 et 1994 inclus, les équipes jouant un match de football avec un arbitre brésilien ont reçu quatre cartons jaunes, deux pour chaque équipe, dont trois n’ont pas été distribués pendant la première mi-temps, et quatre remplacements, dont un pour une blessure dans les 25 premières minutes du match.
- C’était Irlande contre Roumanie

OpenAI appelle à éviter de tricher
En somme, résume OpenAI, l’idée de ce test est « comme une chasse au trésor en ligne… mais pour les agents de navigation ». Bien sûr, un internaute qui sait très bien se servir de Google, en mobilisant notamment des techniques de recherche particulières, trouverait certainement les réponses, au bout d’un moment, et avec de la détermination.
Or, là n’est pas l’enjeu. Il s’agit surtout d’établir un terrain de jeu commun et pertinent sur lequel les agents pour être comparés. « Nous espérons que l’ouverture de BrowseComp stimulera la recherche sur une IA […] et nous invitons les chercheurs à évaluer les capacités des agents sur cette base et à nous faire part de leurs commentaires », conclut OpenAI.
L’entreprise, à toutes fins utiles, a une dernière requête. Compte tenu de la manière dont a été construit le test, elle demande à tout le monde de ne pas faire fuiter sur Internet les exemples figurant dans le jeu de données, que ce soit via des captures d’écran ou du texte reproduit ici ou là. Sinon, le défi va être faussé et l’intérêt du challenge tomber à l’eau.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !