C’est encore l’un des principaux points faibles de Midjourney, quand on lui demande de générer un visuel. Il n’arrive pas facilement à produire du texte que l’on indique dans un prompt — cette fameuse instruction que l’on inscrit pour guider son travail. Depuis la sortie de Midjourney v6, à la fin décembre, l’outil d’IA générative est censé avoir progressé sur ce terrain.
Un progrès somme toute très limité, puisque nos premiers essais de l’époque étaient peu concluants. Le nom de Numerama, que l’on a choisi pour ce test, avait ainsi été malmené. En s’y reprenant à plusieurs reprises, toutefois, l’outil a fini par produire une transcription à peu près correcte. Une faiblesse évidemment étonnante face à l’excellence de Midjourney dans d’autres tâches.
À la décharge de l’IA, ce Midjourney v6 est encore en version alpha — en clair, ce modèle est toujours en cours d’élaboration. Ce n’est pas encore un produit fini et la manière dont il travaille aujourd’hui ne reflète pas sa façon d’opérer demain, lorsqu’il sera fin prêt. « Les choses changeront fréquemment et sans préavis », avait prévenu David Holz, le fondateur.
Une mise à jour de Midjourney v6 pour avoir du texte de meilleure qualité
Preuve en est avec l’annonce, le 6 janvier, de l’arrivée de la première mise à jour majeure de la v6 alpha. Dévoilée sur X (ex-Twitter), elle améliore divers aspects du modèle : l’esthétique, la cohérence, le respect du prompt, la qualité de l’image et, surtout, le rendu du texte. D’autres paramètres, comme l’agrandissement de l’image, ont aussi été optimisés.
En pratique, l’amélioration annoncée par Midjourney montre qu’il y a encore bien du chemin à faire avant de parvenir à retranscrire correctement du texte (celui-ci doit être placé entre guillemets « » dans le prompt pour être interprété comme tel). Il a fallu s’y reprendre à quelques reprises pour avoir des rendus assez proches, quoique pas absolument fidèles.
Lorem ipsum, façon IA
Si Midjourney continue d’oublier certaines lettres dans ses résultats, d’en rajouter, d’inverser des mots ou de doublonner certaines séquences, force est de constater qu’il y a malgré tout un vrai bond en avant par rapport au charabia produit avec les versions antérieures de Midjourney. Midjourney v5.2, par exemple, ne fournit rien d’intelligible.
Dans les deux exemples ci-dessous, c’est Midjourney v5.2 qui a été à l’œuvre, avec des prompts identiques (« a text ‘abonnez-vous à Numerama+’, on a paper »). On a l’impression pour certains résultats de lire des textes médiévaux de moines copistes avec un style gothique. En tout cas, rien ne permet de déceler un bout du texte que l’on a demandé.
Pour ainsi dire, cela s’apparente à une sorte de lorem ipsum. Derrière ce nom latin se cache une pratique consistant à remplir un espace pour avoir un aperçu de la façon dont du texte va s’afficher. C’est utilisé par exemple par des développeurs quand ils mettent en place un site. Ici aussi, l’impression que cela donne est une IA qui remplit l’espace pour le remplir, sans davantage d’effort.
La différence entre Midjourney v5.2 et v6 est flagrante. Si le nouveau modèle reste encore nettement imparfait, le texte qu’il fournit est lisible et parfois assez proche de ce qu’on lui a demandé de retranscrire. À l’inverse, le travail fourni par le modèle d’avant est beaucoup plus aléatoire. Ce baragouinage a une esthétique certaine, mais il est à côté de la plaque.
Si Midjourney est capable d’écrire du texte bien mieux qu’autrefois, les images sont encore ponctuées de déchets. Il faudra encore attendre plusieurs mises à jour de la v6 pour espérer avoir une IA générative. L’entreprise avait prévenu d’ailleurs : « [Ce modèle] changera considérablement au fur et à mesure que la V6 atteindra sa pleine maturité. »
Un entraînement à parfaire
Midjourney ne précise pas de quelle façon il entraîne spécifiquement son IA pour être plus performante dans la production de texte. Le fonctionnement de son outil repose globalement sur l’utilisation de vastes collections de données incluant des images et du texte, pour comprendre et associer des visuels avec des descriptions.
Ce processus peut prendre du temps. Dans le cas de Midjourney v6, la direction a avancé un travail qui s’est étalé sur neuf mois et qui est, de fait, toujours en cours. On présume que dans le cas de textes figurant dans des images, des exemples qui en contiennent déjà ont été particulièrement utiles et recherchés pour les inclure dans les données d’entraînement.
Pour l’heure, c’est du côté de la concurrence qu’il y a de meilleures productions. Sur le terrain du texte, DALL-E 3, qui est l’autre grand produit d’OpenAI avec ChatGPT, offre des performances remarquables. Dès la première tentative, les quatre visuels sont plutôt fidèles (nonobstant le fait que le texte a été traduit en anglais). Il y a des déchets, mais moins prononcés que chez Midjourney.
Vraisemblablement, la retranscription de texte dans des images générées par IA va encore progresser en 2024, que ce soit chez DALL-E, Midjourney, Stable Diffusion et les autres. Des textes de plus en plus longs et complexes, en outre. Une évolution qui va là encore soulever les mêmes inquiétudes de désinformation et de trucage que l’on voit déjà avec les images dénuées de texte.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !