ChatGPT excelle dans de nombreux domaines, mais est loin d’être le meilleur dans la génération d’images. Dall-E 3, le modèle lancé par OpenAI en 2023, peine à rivaliser face à Aurora (xAI et Grok), Imagen 3 (Google) ou d’autres outils plus spécialisés comme Midjourney. OpenAI a un seul avantage sur ses concurrents : son service est directement intégré dans l’interface de ChatGPT, une plateforme utilisée par 400 millions de personnes.
Le 25 mars, OpenAI a enfin actualisé son outil de génération d’images. L’entreprise a présenté à Numerama un nouveau modèle bien plus performant, capable de générer du texte et de répondre à des consignes écrites en langage naturel. Il ne s’agit pas de Dall-E 4, mais d’une extension de GPT-4o, son modèle « omnimodal » et gratuit lancé en mai 2024. Dall-E semble condamné au déclassement.
Du texte sans faute et une mémoire : ChatGPT redevient prometteur
Le nouvel outil d’OpenAI n’a pas de nom, l’entreprise se contente d’en parler comme étant « 4o Image Generation », en référence à GPT-4o. Il ne s’agit pas d’un nouveau modèle à proprement parler, mais d’une exploitation des capacités de génération d’images de GPT-4o. Comme le modèle a été entraîné avec de nombreuses images, il est capable de faire la liaison entre vos idées écrites (ou dictées) et des images qui correspondent à vos pensées.
Techniquement parlant, 4o Image Generation s’annonce très prometteur. OpenAI dit mettre l’accent sur la génération de texte, un des plus grands défauts de Dall-E 3. Puisque ChatGPT peut maintenant écrire du texte correctement, il va pouvoir légender des images, créer de faux panneaux ou des logos. OpenAI s’attend à ce que cet usage séduise de nombreuses personnes.

L’autre force du nouveau modèle d’OpenAI est sa capacité à comprendre des demandes précises, avec du texte. Il n’y a pas besoin d’apprendre à prompter dans le langage des modèles de diffusion, il suffit d’expliquer son idée.
Le nouveau ChatGPT est capable de générer de très nombreux formats, comme une bande dessinée, un tableau sur lequel un humain écrit ou des posters.

Selon OpenAI, GPT-4o est capable de comprendre entre 10 et 20 demandes dans une seule question, ce qui lui permet de générer des idées très précises sans rien oublier. En comparaison, Dall-E peinait au-delà de 3-4 idées.
Des discussions pour améliorer une image : ChatGPT attaque Photoshop
Comme Google Gemini quelques jours auparavant (qui s’appuie sur le modèle Imagen), ChatGPT dispose grâce à son nouveau modèle d’un système d’édition des images. La promesse est la suivante : envoyez une photo, puis demandez à l’IA de changer des choses. Puisque GPT-4o dispose d’une « mémoire », il devient possible de mettre une photo d’un animal, de demander une transformation puis d’ajouter le personnage à un jeu vidéo ou à une autre scène. L’entreprise indique à Numerama que jusqu’à 15 photos peuvent être envoyées à l’outil pour lui donner du contexte.

Quid de la génération d’êtres humains ? OpenAI signe une ouverture inédite et annonce à Numerama beaucoup moins censurer qu’auparavant. « Au lancement, nous ne bloquons pas la possibilité de générer des personnalités publiques adultes, mais nous mettons en place les mêmes garanties que celles appliquées lors de la modification d’images photoréalistes téléchargées représentant des personnes », indique l’entreprise. Face à la montée de solutions concurrentes, comme le Grok d’Elon Musk qui génère tout et n’importe quoi, ChatGPT peut maintenant tout faire. Mais attention à ne pas aller trop loin : OpenAI ne tolère pas la haine ou les représentations érotiques.

Le nouvel outil de ChatGPT est disponible gratuitement aujourd’hui
Puisque la génération d’images est intégrée à GPT-4o, tous les utilisateurs de ChatGPT peuvent l’essayer, y compris dans la version gratuite. Il s’agit du nouveau générateur d’images par défaut de ChatGPT. Les plus nostalgiques pourront toujours parler à Dall-E GPT pour retrouver l’ancien modèle.
Quid de l’API ? Dans un premier temps, la génération d’images par GPT-4o est réservée à ChatGPT. Ensuite, tous les développeurs pourront l’utiliser. Sora bénéficie également de ces nouvelles fonctions.
À l’avenir, il est probable que le futur GPT-5, annoncé comme réunissant GPT et o3 dans une même interface, dispose d’un modèle de génération d’images encore plus performant.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !