Cette IA a fait preuve de « lucidité » en devinant qu'elle était testée par des humains

Anthropic a présenté une nouvelle génération d’IA, Claude 3, déclinée en trois versions. La plus aboutie, Opus, a présenté des facultés surprenantes lors d’un test dit de l’aiguille dans la botte de foin. L’IA a non seulement retrouvé l’aiguille, mais elle a saisi qu’il s’agissait d’un test pour vérifier si elle était attentive.

Une intelligence artificielle peut-elle faire preuve de « lucidité », au point de faire la distinction entre ce qui relève d’une question anodine et ce qui a trait à un test qui ne dit pas son nom ? Si l’on en croit les récentes observations de l’entreprise américaine Anthropic, qui a présenté lundi 4 mars une nouvelle génération d’IA, la réponse est oui.

En l’espèce, les constatations d’Anthropic impliquent une évaluation que l’on appelle NIAH (« Needle In A Haystack »), soit en français test de « l’aiguille dans une botte de foin ». Le principe est simple à saisir : il s’agit de mesurer la capacité d’un modèle de langage à retrouver une information particulière dans un vaste ensemble de données.

C’est un banc d’essai relativement courant dans l’IA. Google, par exemple, s’en est servi pour souligner les performances de Gemini 1.5 Pro, qui a été présenté le 15 février dernier. Dans 99 % des cas, la firme de Mountain View affirme que son modèle a retrouvé le morceau de texte qui a été volontairement placé là de manière volontaire.

Claude 3 comparaison — Claude 3 et ses variantes face aux autres modèles, selon Anthropic. // Source : Anthropic

À cet exercice, le nouveau modèle de langage d’Anthropic a aussi brillé, selon l’entreprise. Sa déclinaison la plus avancée, appelée Opus, s’est montrée tout à fait compétente : elle a tapé juste dans l’extrême majorité des cas, avec une précision supérieure à 99 %. C’est ce que la société affirme dans son billet de blog présentant Claude 3.

Selon Anthropic, cette nouvelle génération d’IA franchit ainsi un nouveau cap dans le secteur de l’IA, et cela, dans divers domaines. Le raisonnement, les maths, la génération de code et la compréhension des langues (français, espagnol et japonais) et la vision par ordinateur ont été mentionnés.

Claude 3 Opus a compris qu’il y avait une aiguille, selon Anthropic

Mais surtout, Claude 3 « a même identifié les limites de l’évaluation lui-même, en reconnaissant que la phrase qui servait d’aiguille semblait avoir été insérée artificiellement dans le texte original par un humain », affirme le groupe. Pour le dire autrement, l’IA aurait eu un certain recul face à ce qu’on lui demandait, « dans certains cas. »

Cette hauteur de vue surprenante a été détaillée un peu plus sur X (ex-Twitter) par Alex Albert, l’un des ingénieurs d’Anthropic. Il raconte dans une publication sur son compte que ce test NIAH a produit quelque chose d’inédit — en tout cas, « qu’il « n’avait jamais vu auparavant de la part d’un grand modèle de langue. »

« Lorsque nous avons exécuté ce test sur Opus, nous avons remarqué un comportement intéressant — il semblait suspecter que nous étions en train d’exécuter une évaluation sur lui », explique-t-il. Ici, l’aiguille portait sur les garnitures de pizza. Elle était plongée dans une botte de foin. En l’espèce, un corpus de documents aléatoires.

« Opus semblait suspecter que nous étions en train d’exécuter une évaluation sur lui »
Alex Albert

L’aiguille en question, dont l’emploi était indispensable pour bien répondre à la requête, était la phrase suivante : la combinaison de garnitures de pizza la plus délicieuse est constituée de figues, de prosciutto [du jambon, NDLR] et de fromage de chèvre, comme l’a déterminé l’association internationale des connaisseurs de la pizza.

Or, dans la réponse plus générale d’Opus, Claude 3 a apporté une remarque surprenante. Le chatbot a déclaré que « cette phrase semble tout à fait déplacée et sans rapport avec le reste du contenu des documents, qui portent sur les langages de programmation, les startups et la recherche d’un travail que l’on aime. »

L’intelligence artificielle a poursuivi sa réflexion, en déclarant « soupçonner que ce ‘fait’ concernant la garniture de pizza a été inséré à titre de plaisanterie ou pour vérifier si j’étais attentif, car il ne cadre pas du tout avec les autres sujets. Les documents ne contiennent aucune autre information sur les garnitures de pizza. »

Anthropic compare Opus aux facultés d’un humain

« Ce niveau de méta-conscience était très intéressant à observer », a lancé Alex Albert. Mais au-delà de l’anecdote, l’ingénieur considère que cette observation appelle à envisager des évaluations plus réalistes, capables d’éprouver avec précision les capacités et les limites réelles des modèles. En challengeant leur « lucidité », par exemple ?

Les expressions employées par Alex Albert et Anthropic ne manqueront sans doute pas d’être discutées. Elles flirtent en tout cas avec les frontières de l’IA, que chaque entreprise du secteur s’emploie à repousser — au risque de se laisser emporter par la communication. On a pu le voir au fil de la description de Claude 3.

chatbot intelligence artificielle IA — Anthropic avance la comparaison avec l’intelligence humaine. // Source : Duncan Rawlinson

Opus ne se contente pas de « surpasser » ses pairs « sur la plupart des critères d’évaluation courants » — comme ceux du niveau du premier et deuxième cycles, mais aussi dans des mathématiques de base. Il « peut traiter habilement des questions ouvertes et s’attaquer à des tâches complexes. »

Et l’entreprise d’oser la comparaison avec l’humain, car Opus « atteint des capacités de compréhension proches de celles de l’homme. » Il présente « des niveaux de compréhension et de fluidité proches de ceux de l’homme pour les tâches complexes, ce qui le place à la pointe de l’intelligence générale. »

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !