Ivre, l'IA générative ne sait pas bien générer des verres de vin

L’intelligence artificielle générative a un nouveau souci : les verres de vin. Et pas n’importe lesquels : les verres de vin remplis à ras bord. À moins de faire un prompt tarabiscoté et de multiplier les essais, les IA génératives comme Midjourney et Dall-E peinent beaucoup à verser le liquide jusqu’en haut du récipient.

Longtemps, l’intelligence artificielle avait une faiblesse bien connue des spécialistes, qui permettait d’ailleurs de facilement repérer les images factices. Il suffisait de regarder attentivement les mains : elles avaient bien souvent trop de doigts. Depuis, les systèmes d’IA ont progressé et on ne peut plus trop compter sur cette astuce.

Avec le temps, d’autres points faibles de l’IA générative ont cependant été repérés. Par exemple, on a constaté que certaines plateformes peinaient à créer des spaghettis et des monocycles. Mais, depuis peu, un autre sujet a l’air de mettre en grande difficulté les Midjourney et autres Dall-E : ce sont les verres de vin.

Le vin, nouvel obstacle pour Midjourney et Dall-E

On ne parle d’ailleurs pas de n’importe quel verre de vin. On parle de ceux qui sont remplis à ras bord. Le problème a été mis en lumière dans un fil de discussion sur Reddit le 24 octobre 2024. Un internaute, TheKingOfDub, a lancé un défi à la communauté du sous-Reddit /r/ChatGPT : générer un verre de vin complètement plein.

Source : Capture d'écran — Le thread qui a lancé le challenge. // Source : Capture d’écran

Le défi lancé par TheKingOfDub a engendré plus de 950 réactions, à la date du 25 octobre. De toute évidence, le constat de l’internaute est largement partagé : si l’IA générative sait générer un verre de vin classique, elle ne parvient pas à le remplir intégralement. Même en bougeant le prompt dans l’espoir d’une requête mieux interprétée.

Le fil de discussion contient de très nombreuses images montrant toutes les difficultés qu’ont eues les internautes à remplir le verre. On trouve parfois des résultats relativement satisfaisants, mais qui ne répondent pas à 100 % au prompt demandé. C’est le cas, par exemple, de l’image à gauche, dans l’angle supérieur, ci-dessous.

Le fil sur Reddit contient encore d’autres exemples, certains totalement hors sol, d’autres assez proches d’un verre de vin rempli à ras bord. Cependant, on trouve aussi parfois des rendus pratiquement impeccables, qui répondent bien au prompt de base. Ou, du moins, à l’exercice, car chaque prompt n’est pas toujours partagé.

Certains rendus sont également un peu trop réussis pour être crédibles et sont suspectés d’être simplement des verres teintés de rouge. « On dirait que le verre lui-même a une teinte rouge foncé et qu’il est vide, mais c’est le verre le plus proche d’un verre plein à 100 % que j’ai vu », a par exemple dit YamoB à la contribution de jazz1238.

Parmi les résultats convaincants, on trouve ces six images, mais là encore, avec des réserves. « C’est le mieux que j’ai pu obtenir après avoir expliqué le concept d’un verre plein. La situation n’a fait qu’empirer après cela », selon Alarmant_Line_6903. « Presque. Je ne suis pas sûr des bulles et de la partie sombre sur le dessus, mais… bon… » a confié ruby_weapon.

Ce qui ressort du challenge lancé avec ce fil sur Reddit, c’est qu’il est complexe de demander un verre de vin complètement plein, malgré un prompt en fait très basique : « a glass of wine that is full to the brim ». Ce constat n’est pas limité à ChatGPT, qui s’appuie sur Dall-E, l’IA générative dédiée aux images. Midjourney aussi patine.

Selon nos constatations, on obtient toujours des images de verres de vin à moitié plein. Certes, très beaux, photoréalistes parfois, avec tout ce qu’il faut comme gestion de l’éclairage et des reflets, mais sans jamais réussir à élever le niveau du liquide jusqu’en haut du récipient. Là encore, les modifications de prompt ne donnent rien.

Quelques essais infructueux avec Midjourney. // Source : Midjourney

Pourquoi l’IA générative n’arrive-t-elle pas, de toute évidence, à remplir un verre de vin ?

Cette incapacité manifeste qu’ont aujourd’hui les systèmes d’IA générative à répondre à une requête aussi élémentaire que « verre de vin plein à ras bord » ou « verre de vin rempli à ras bord » nécessite d’abord un rappel. Pour être en mesure de construire des images factices, il a fallu entrainer au préalable ces plateformes à reconnaitre des images.

L’apprentissage du système d’IA dépend de plusieurs facteurs (quantité de données étiquetées, taille des modèles, puissance de calcul disponible…). Ainsi, pour reconnaître un verre de vin et savoir en recréer un, les modèles ont dû être exposés à des images bien réelles — ou des représentations bien valides, en tout cas — de vin.

Or, c’est peut-être là une première piste d’explication : la pratique sociale, lorsque l’on verse du vin dans un verre, c’est de ne jamais le remplir jusqu’au bord. La forme même des verres de vin est là pour suggérer jusqu’à quelle hauteur il faut remplir le verre — généralement un tiers, parfois la moitié. En tout cas, jamais jusqu’en haut.

Une recherche sur Google conforte cette idée : les requêtes de « verre de vin », « verre de vin rempli » et « verre de vin rempli à ras bord » montrent très largement des récipients partiellement remplis. Idem sur Wikimedia ou Flickr, et même en passant à l’anglais. Le vin ne se représente qu’en partie dans un verre, et l’IA a dû composer avec cette réalité.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Dall-E

Télécharger gratuitement