ChatGPT se dote enfin d'un bon générateur d'images : OpenAI remplace Dall-E

Oubliez Dall-E, OpenAI lance un nouveau modèle pour générer et modifier des images. Ce nouvel outil est directement intégré à ChatGPT (avec GPT-4o) et vise à rattraper le retard accumulé sur Google, xAI ou Midjourney.

ChatGPT excelle dans de nombreux domaines, mais est loin d’être le meilleur dans la génération d’images. Dall-E 3, le modèle lancé par OpenAI en 2023, peine à rivaliser face à Aurora (xAI et Grok), Imagen 3 (Google) ou d’autres outils plus spécialisés comme Midjourney. OpenAI a un seul avantage sur ses concurrents : son service est directement intégré dans l’interface de ChatGPT, une plateforme utilisée par 400 millions de personnes.

Le 25 mars, OpenAI a enfin actualisé son outil de génération d’images. L’entreprise a présenté à Numerama un nouveau modèle bien plus performant, capable de générer du texte et de répondre à des consignes écrites en langage naturel. Il ne s’agit pas de Dall-E 4, mais d’une extension de GPT-4o, son modèle « omnimodal » et gratuit lancé en mai 2024. Dall-E semble condamné au déclassement.

Pour aller plus loin

Alain Chabat en mode Pixar, par ChatGPT. // Source : Numerama

Comment essayer le nouveau générateur d’images de ChatGPT ?

Du texte sans faute et une mémoire : ChatGPT redevient prometteur

Le nouvel outil d’OpenAI n’a pas de nom, l’entreprise se contente d’en parler comme étant « 4o Image Generation », en référence à GPT-4o. Il ne s’agit pas d’un nouveau modèle à proprement parler, mais d’une exploitation des capacités de génération d’images de GPT-4o. Comme le modèle a été entraîné avec de nombreuses images, il est capable de faire la liaison entre vos idées écrites (ou dictées) et des images qui correspondent à vos pensées.

Techniquement parlant, 4o Image Generation s’annonce très prometteur. OpenAI dit mettre l’accent sur la génération de texte, un des plus grands défauts de Dall-E 3. Puisque ChatGPT peut maintenant écrire du texte correctement, il va pouvoir légender des images, créer de faux panneaux ou des logos. OpenAI s’attend à ce que cet usage séduise de nombreuses personnes.

Vos données méritent d’être mieux protégées.

Les escroqueries, les virus et les ransomwares ne sont plus une fatalité. Protégez votre vie privée et vos données personnelles avec Bitdefender et profitez de votre vie numérique en toute sérénité.

Exemple d'image générée par ChatGPT-4o, avec une légende par cocktail, automatiquement située au bon endroit. — Exemple d’image générée par ChatGPT-4o, avec une légende par cocktail, automatiquement située au bon endroit. // Source : OpenAI

L’autre force du nouveau modèle d’OpenAI est sa capacité à comprendre des demandes précises, avec du texte. Il n’y a pas besoin d’apprendre à prompter dans le langage des modèles de diffusion, il suffit d’expliquer son idée.

Le nouveau ChatGPT est capable de générer de très nombreux formats, comme une bande dessinée, un tableau sur lequel un humain écrit ou des posters.

Une bande-dessinée générée par ChatGPT — Une bande dessinée générée par ChatGPT. // Source : OpenAI

Selon OpenAI, GPT-4o est capable de comprendre entre 10 et 20 demandes dans une seule question, ce qui lui permet de générer des idées très précises sans rien oublier. En comparaison, Dall-E peinait au-delà de 3-4 idées.

Des discussions pour améliorer une image : ChatGPT attaque Photoshop

Comme Google Gemini quelques jours auparavant (qui s’appuie sur le modèle Imagen), ChatGPT dispose grâce à son nouveau modèle d’un système d’édition des images. La promesse est la suivante : envoyez une photo, puis demandez à l’IA de changer des choses. Puisque GPT-4o dispose d’une « mémoire », il devient possible de mettre une photo d’un animal, de demander une transformation puis d’ajouter le personnage à un jeu vidéo ou à une autre scène. L’entreprise indique à Numerama que jusqu’à 15 photos peuvent être envoyées à l’outil pour lui donner du contexte.

La photo originale à gauche, l'ajout de l'animal dans un jeu vidéo à droite — La photo originale à gauche, l’ajout de l’animal dans un jeu vidéo à droite. // Source : OpenAI

Quid de la génération d’êtres humains ? OpenAI signe une ouverture inédite et annonce à Numerama beaucoup moins censurer qu’auparavant. « Au lancement, nous ne bloquons pas la possibilité de générer des personnalités publiques adultes, mais nous mettons en place les mêmes garanties que celles appliquées lors de la modification d’images photoréalistes téléchargées représentant des personnes », indique l’entreprise. Face à la montée de solutions concurrentes, comme le Grok d’Elon Musk qui génère tout et n’importe quoi, ChatGPT peut maintenant tout faire. Mais attention à ne pas aller trop loin : OpenAI ne tolère pas la haine ou les représentations érotiques.

Des affiches avec du texte générées par GPT-4o. // Source : OpenAI

Le nouvel outil de ChatGPT est disponible gratuitement aujourd’hui

Puisque la génération d’images est intégrée à GPT-4o, tous les utilisateurs de ChatGPT peuvent l’essayer, y compris dans la version gratuite. Il s’agit du nouveau générateur d’images par défaut de ChatGPT. Les plus nostalgiques pourront toujours parler à Dall-E GPT pour retrouver l’ancien modèle.

Quid de l’API ? Dans un premier temps, la génération d’images par GPT-4o est réservée à ChatGPT. Ensuite, tous les développeurs pourront l’utiliser. Sora bénéficie également de ces nouvelles fonctions.

À l’avenir, il est probable que le futur GPT-5, annoncé comme réunissant GPT et o3 dans une même interface, dispose d’un modèle de génération d’images encore plus performant.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Pour de l’actu en petit comité, rejoignez la communauté Numerama sur WhatsApp !

Tout comprendre à La guerre de l’IA