Une IA transforme vos gribouillis en paysages magnifiques

Nvidia a créé un outil capable de générer des paysages en se basant sur de simples gribouillages.

Demain, serons-nous tous d’habiles d’illustrateurs numériques grâce au progrès de l’intelligence artificielle ? C’est l’avenir que semble promettre le projet GauGAN, porté Nvidia, que l’on connaît surtout pour ses cartes graphiques. L’entreprise américaine a en effet fait la démonstration d’un outil qui transforme un quelconque gribouillis en un superbe paysage. Le résultat est bluffant.

GauGAN, dont le nom est un clin d’œil au peintre postimpressionniste Paul Gauguin, se montre en effet capable de donner à n’importe qui le moyen de créer les décors qu’il veut, en quelques secondes et sans aucune formation artistique. Il suffit juste de démarrer le logiciel, qui n’est pas sans rappeler le célèbre Paint de par sa simplicité, et de placer où vous voulez les éléments de votre environnement.

Du gribouillis à la photo

Vous voulez avoir un rocher en bas de votre feuille de dessin ? Il suffit de sélectionner le pinceau correspondant dans la palette dédiée et de tracer grossièrement votre caillou dans l’espace de travail : il aura l’air d’un gribouillage d’un jeune enfant, mais GauGAN générera un vrai rocher dans l’aperçu, situé juste à côté. Et cela fonctionne aussi avec bien d’autres éléments naturels ou artificiels.

À l’heure actuelle, GauGAN gère les éléments suivants : ciel, arbre, nuage, montagne, herbe, mer, rivière, rocher, plante, sable, neige, eau, colline, saleté, route, fleur, caillou, broussaille, bois et gravier. Le plus étonnant reste la manière dont l’environnement s’adapte à chaque nouvel élément. Par exemple, l’ajout d’une cascade tombant d’une falaise produira aussi des reflets bleutés sur la roche alentour.

À gauche, votre oeuvre. À droite, l'aide apportée par GauGAN.

Source : Nvidia

Comment Nvidia parvient-il à interpréter un brouillon informe pour ensuite en donner une version spectaculaire, comme si c’était un paysage pris en photo ? D’abord, la société a fait en sorte de bien associer chaque pinceau à un élément précis : le bouton « herbe » indique à GauGAN qu’il faut afficher de l’herbe, par autre chose. Et l’outil sait identifier et générer cette herbe, grâce à l’apprentissage profond.

Cette méthode enseigne à un système informatique la capacité d’identifier quelque chose en lui montrant au préalable des millions d’exemples de cette chose. Si on veut lui permettre d’identifier une montagne, l’entraînement consistera à lui montrer une quantité considérable de données cohérentes et correctement labellisées, afin qu’il soit en mesure de se débrouiller seul ensuite.

Travail d’équipe

Ensuite, Nvidia a mobilisé ce qu’on appelle un réseau antagoniste génératif, generative adversarial network en anglais (GAN). D’où le nom de l’outil : GauGAN. C’est une méthode d’apprentissage non supervisée conçue par l’informaticien Ian Goodfellow, propulsé par la suite par Nvidia grâce à ses composants. C’est cette technique qui a par exemple servi pour ces visages qui n’appartiennent à personne.

Comme nous l’expliquions dans une précédente actualité, deux réseaux collaborent sur le résultat à atteindre : un GAN génère des visuels et l’autre GAN, appelé le « discriminateur », va vérifier la qualité du travail fourni. À la différence du premier réseau, le « générateur », le discriminateur a été entraîné avec l’apprentissage profond. Il « sait » donc à quoi ressemble le monde réel.

Quelques coups de crayon suffisent.

Source : Nvidia

« Les GAN peuvent produire des résultats convaincants en raison de leur structure en tant que paire de réseaux coopérants », écrit Nvidia. « Le générateur crée des images qu’il présente au discriminateur. Formé sur des images réelles, le discriminateur entraîne le générateur avec un retour pixel par pixel sur la façon d’améliorer le réalisme de ses images synthétiques », poursuit l’entreprise.

C’est pour cela que le générateur rajoute par exemple des reflets à côté d’une étendue d’eau. Le discriminateur lui a montré les variations de couleur au niveau des pixels. Si le résultat du générateur correspond à ce que sait le discriminateur, le générateur saura par son partenaire artificiel que ce qu’il a produit est correct. Plus les échanges sont denses, plus les images générées sont rapides à produire.

On n’ose imaginer ce que GauGAN serait capable de faire dans une partie de Dessinez, c’est gagné.