GPT-5, ChatGPT Search, régulation de l'UE : les confidences de Sam Altman et OpenAI

OpenAI a organisé sur Reddit une session de questions / réponses où de nombreux sujets ont été abordés, certains légers, d’autres sur les projets à venir de l’entreprise américaine. L’occasion de mieux saisir les réflexions et les orientations de la société, fer de lance de l’IA générative.

C’est la surprise de la fin octobre dans le domaine de l’intelligence artificielle générative : le 31 octobre 2024, OpenAI a annoncé avoir mis à jour ChatGPT pour lui permettre de chercher des informations fraiches sur le net, comme la météo ou des résultats sportifs. Pour Google, c’est un défi sérieux, compte tenu de l’attractivité du chatbot depuis deux ans.

Cette annonce fracassante dans le secteur de la recherche en ligne a eu pour effet d’éclipser un autre évènement organisé par OpenAI sur le site communautaire Reddit. Un AMA (« Ask Me Anything », ce qui se traduit par « Demandez-moi n’importe quoi ») organisé au même moment. Une occasion pour les internautes de poser quelques questions.

S’il n’y a pas eu d’annonce fracassante de la part de l’équipe dirigeante (ce type de format AMA ne s’y prête pas vraiment), cette session de questions / réponses a cependant permis d’avoir un aperçu actualisé des réflexions et des orientations chez OpenAI sur différents thèmes. Ci-dessous sont listés les principaux points à retenir.

Participaient à cet AMA : Sam Altman (le fondateur et patron d’OpenAI), Jakub Pachocki (scientifique en chef), Srinivas Narayanan (vice-président de l’ingénierie), Kevin Weil (directeur des produits) et Mark CHen (vice-président senior de la recherche). Et promis, l’équipe a affirmé que cet AMA n’a pas été rédigé par… ChatGPT.

Amélioration de ChatGPT

OpenAI pilote désormais de nombreux modèles. La série classique (GPT-3, -4, -4o) et une nouvelle série (o1). Pour l’heure, l’idée est s’occuper des deux : améliorer la série classique et sortir d’autres générations de la série o. Mais à terme, OpenAI se dit que les deux lignes de produits finiront par converger.
Plusieurs internautes ont plaidé pour une fenêtre de contexte plus grande. OpenAI y travaille. Il s’agit d’un paramètre qui désigne la quantité de texte que le modèle peut traiter et mémoriser en même temps pour générer une réponse. Plus celle-ci est grande, mieux c’est. Les réponses sont plus cohérentes pour converser longuement ou gérer des documents de grande taille.

DALL-E 4 est prévu, un mode NSFW pour ChatGPT envisagé

La dernière version de DALL-E (un outil de génération d’images) date de 2023. Des internautes trouvent que le modèle devient obsolète. Sam Altman a confirmé qu’une nouvelle version de DALL-E est en développement, mais il n’y a pas encore de date connue. L’outil est accessible via ChatGPT ou Bing et des efforts sont faits pour rendre ces images factices identifiables.
Sam Altman ne ferme pas la porte à l’idée d’un mode dans ChatGPT pour créer des contenus pour adultes (NSFW), estimant que les adultes doivent être traités comme des adultes — suggérant qu’ils seraient donc responsables. Ce n’est toutefois pas une priorité ni à court ni à moyen terme. D’autant qu’il y aura la problématique des garde-fous à résoudre.

DALL-E 3 — DALL-3 date de 2023 et est jugé daté par des internautes. // Source : OpenAI

Bientôt la version complète d’OpenAI o1-preview, des nouvelles de Sora

En septembre 2024, OpenAI dévoilait un nouveau modèle de raisonnement appelé o1-preview. L’entreprise prévoit de déployer « bientôt » la version complète de ce modèle, à une date non précisée. Elle assure que le public percevra l’amélioration entre o1-preview et sa version finale.
Toujours au sujet des modèles o1, la priorité est d’améliorer leur fonctionnement, qu’il s’agisse de cette génération et des suivantes. Selon OpenAI, tous ces modèles sont devenus assez complexes, limitant la possibilité de sortir des produits simultanément. Cela est dû, notamment, mais pas seulement, au défi de choisir où affecter des ressources informatiques.
La prise en charge des images est prévue dans o1 (et dans les futures versions), mais OpenAI préfère avoir un modèle fonctionnel d’abord, plutôt que complet, avec beaucoup de fonctions. Cette multimodalité surviendra dans les mois à venir.
En février, OpenAI dévoilait Sora, un outil de génération pour la vidéo. À l’époque, les contenus étaient bluffants. Mais depuis, les nouvelles se sont taries. Selon l’AMA, le modèle a besoin d’être perfectionné et d’avoir de meilleures règles de modération, pour éviter de générer des contenus trompeurs ou sexuels. Il y a aussi des défis techniques et de ressources en calcul qui restent à relever.

sora openai — L’outil de génération vidéo Sora est pour l’instant hors de portée des internautes. // Source : OpenAI

Pas de GPT-5 d’ici à la fin de l’année, futur de l’IA

Selon Sam Altman, il y a de nouvelles « très bonnes » choses qui sortiront d’ici à la fin de l’année, mais il n’y aura rien, selon lui, qui méritera de s’appeler GPT-5. Sam Altman n’a évoqué ni la date de sortie ni les fonctionnalités du successeur de GPT-4, qui est très attendu. Des rumeurs ont évoqué un lancement à la fin du mois de novembre ou début décembre, mais c’est improbable. Sam Altman a déjà dit qu’il y aurait un jour un GPT-5.
Selon Sam Altman, l’intelligence artificielle générale (l’instant où l’IA est capable de reproduire les capacités cognitives humaines en globalité) pourra être atteinte avec le matériel informatique actuel. En clair, il n’y aura pas besoin d’atteindre le calcul quantique. Cependant, l’IA générale reste un domaine de recherche actif et aussi très débattu, où des désaccords existent entre spécialistes.
Pour OpenAI, 2025 pourrait être le moment où ChatGPT commencerait à avoir la faculté de traiter des tâches de manière autonome. En tout cas, selon la société, ce sera un thème majeur. Des expérimentations pour autonomiser les chatbots sont en cours depuis quelques années maintenant, à l’image d’Auto-GPT ou Baby-GPT.

Auto-GPT — 2025 pourrait être un tournant pour l’automatisation des chabots, à en croire OpenAI. // Source : Numerama avec Midjourney

Évolution du mode voix avancé et du mode recherche (ChatGPT Search)

Lancé en septembre (et arrivé en France en octobre), le mode « voix avancé » de ChatGPT est capable de se comporter comme assistant vocal avec bien plus de naturel. Il peut imiter des émotions, se laisser couper la parole et prendre des accents. Selon le AMA, une prochaine version devrait lui permettre aussi de chanter.

Il n’est pas prévu d’intégrer une capacité de vision au mode voix avancé à ChatGPT, du moins à brève échéance, en raison de contraintes techniques.
Concernant la recherche via ChatGPT, OpenAI se dit ouvert à l’idée de laisser les éditeurs de presse et les webmasters de pouvoir voir comment ils apparaissent dans ChatGPT (comment ils sont cités, à quelle fréquence, etc). Cependant, OpenAI a précisé que rien n’est prévu pour le moment. Aucun engagement n’est pris.

Ce nouveau bouton permet de lancer une recherche depuis le web sur ChatGPT. // Source : OpenAI

Questions diverses

Concernant la politique de régulation de l’Union européenne, plus stricte du fait de la loi sur l’IA, Sam Altman a rappelé que sa société se conforme aux règles de l’UE — ce qui provoque parfois des sorties en décalé par rapport au reste du monde. Mais Sam Altman a ajouté espérer que l’Union suivra une politique « de plus en plus raisonnable ». Sous-entendu : sans sur-réguler.
Quant à la question de savoir si OpenAI comptera un jour renommer ses modèles avec autre chose que des sigles obscurs et des suites de chiffres et de lettres, la réponse est claire : c’est non.
Enfin, à la question de savoir quel serait le meilleur prompt à utiliser avec ChatGPT, l’un des membres de l’équipe avoue avoir une faiblesse pour : « Sur la base de nos interactions, que pouvez-vous dire de moi que je ne sache pas déjà ? ».