Gemini : le plan de Google pour renverser GPT-4 et ChatGPT

Google a un stratagème pour rivaliser avec GPT-4 et ChatGPT d’OpenAI. C’est le plan Gemini, dont les contours commencent à se préciser.

C’est une observation qu’il a été possible de faire au moment où Bard, l’agent conversationnel de Google, est sorti en France au début de l’été. Sans être ridicule, le chatbot du géant du net s’avère toutefois moins performant que ChatGPT. Les quelques tests informels montrent une certaine une avance de l’intelligence artificielle (IA) conçue par l’entreprise OpenAI, par rapport à la solution poussée par Google.

Les choses, néanmoins, pourraient prochainement évoluer. Selon les sources du site The Information, la célèbre entreprise californienne prépare une nouvelle offensive sur le terrain de l’IA, matérialisée par un projet surnommé Gemini. Il serait déjà en test préliminaire auprès de quelques entreprises triées sur le volet, selon les indications du média dans son édition du 14 septembre.

Si Google en est au stade de l’ouverture d’un accès à des tiers externes, cela laisse à penser que la conception de Gemini a déjà bien avancé, en tout cas suffisamment pour que l’outil puisse être partagé à des partenaires et utilisé par eux. C’est un cap notable qui peut faire penser qu’un lancement de Gemini à plus grande échelle se trouve à un horizon assez proche — probablement avant la fin de l’année.

Un chatbot à la carte, avec un éventail de facultés ?

D’après les éléments obtenus par nos confrères, Gemini serait capable de tenir tête à GPT-4, la dernière version du modèle de langage élaboré par OpenAI pour faire tourner ChatGPT. Dans le détail, Gemini comprendrait un ensemble de modèles de langage de grande taille, pour couvrir des besoins différents. Ce ne serait donc pas qu’un seul modèle, comme LaMDA qui fait tourner Bard, mais un éventail de solutions.

Difficile de jauger des performances de Gemini aujourd’hui, faute de pouvoir accéder à ce projet. Cependant, l’article évoque des capacités de génération de code considérablement améliorées pour les développeurs de logiciels par rapport aux précédents modèles de la firme de Mountain View. Le chatbot pourra aussi analyser des graphiques, les commenter et réagir aux instructions écrites ou orales passées dans divers logiciels, dont le navigateur web.

Capture d'écran de l'interface de Bard. // Source : Google — Capture d’écran de l’interface de Bard. // Source : Google

Les facultés de Gemini ne sont pas confirmées à ce stade par Google. En dehors de la production de code informatique, l’outil pourrait aussi générer des images sur la base des instructions (« prompts ») des internautes. De fait, cela donnerait à Gemini une dimension multimodale : il reçoit du texte en entrée, et peut retourner un visuel en sortie. Il pourrait aussi générer du texte ou résumer un article — des fonctions que l’on retrouve déjà ailleurs.

Autre atout évoqué dans la publication : la capacité de Gemini d’aller puiser dans les autres données de Google, sur ses serveurs, en plus de celles librement accessibles sur le web. Cela permettrait à Gemini de développer des réponses personnalisées, en saisissant mieux les requêtes d’un internaute. Il n’est pas précisé si cela inclut aussi les données personnelles ou les traces laissées dans un historique, que ce soit sur le moteur de recherche ou Maps, par exemple.

Sur un plan plus commercial, Gemini pourrait être décliné en versions plus ou moins abouties, selon ce que la clientèle est disposée à mettre. La variante la plus aboutie serait capable de fournir des performances semblables à GPT-4, qui est la génération de modèle de langage la plus aboutie chez OpenAI — et celle-ci fait office de mètre-étalon dans l’IA conversationnelle. OpenAI, d’ailleurs, monétise l’accès à GPT-4, afin d’en tirer aussi un gain.

Rattraper GPT-4 ne suffira peut-être pas

On ignore à quel point Gemini rattrape, rivalise ou surpasse GPT-4. Si Google ne fait pas franchement mieux que GPT-4, l’entreprise américaine risquerait non seulement de signer une contre-performance technique, mais pourrait en pâtir en bourse. En effet, s’aligner sur un modèle de langage présent sur le marché depuis plus de six mois ne fait que combler un fossé qui risque de se recreuser très vite, avec la sortie d’une nouvelle version de GPT côté OpenAI.

On peut présumer qu’OpenAI ne va certainement pas attendre que l’un de ses rivaux, en l’occurrence Google, sorte un concurrent digne de ce nom sans rien faire. Si Gemini rattrape seulement GPT-4, c’est exposer ce nouveau chatbot à un retard avec GPT-5. Car si OpenAI affirme que cette prochaine génération n’est pas son sujet, on peine à croire qu’elle n’est pas évoquée en interne.

De fait, il serait préférable pour Google que Gemini double franchement GPT-4 pour revenir sérieusement dans la course, et ne se contente pas de rattraper le temps perdu. C’est plus facile à dire qu’à faire : inquiet de l’extrême attention que ChatGPT a reçu, Google a donné l’impression de sortir précipitamment Bard pour prouver qu’il était aussi dans le coup de l’IA conversationnelle. Un empressement mis en lumière par un lancement raté. Un incident qu’il ne faudrait pas réitérer avec Gemini.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Tout comprendre à La guerre de l’IA

Google

Télécharger gratuitement