Nvidia imagine bouleverser la modélisation 3D avec une IA qui génère n'importe quoi

Demain, serons-nous tous modélisateurs 3D ? Nvidia a dévoilé une IA générative, appelée LATTE3D, qui transforme en instant du texte en des représentations 3D. La démonstration s’est focalisée sur des objets et des animaux, mais l’outil pourrait générer en 3D n’importe quoi.

Les spécialistes de la modélisation 3D n’ont qu’à bien se tenir. Leur activité pourrait bientôt être challengée par un modèle d’intelligence artificielle (IA) un peu particulière. En effet, LATTE3D est capable de convertir à la volée des instructions écrites (comme sur ChatGPT) en représentations 3D d’objets ou d’animaux.

Cette technologie a été dévoilée le 21 mars 2024 par Nvidia, et illustre un peu plus les colossaux investissements de l’entreprise américaine dans le domaine de l’IA — à l’image de la présentation de la puce Blackwell B200, décrite comme décisive pour l’IA générative. Ces annonces ont eu lieu lors de la conférence GTC de Nvidia.

Concernant LATTE3D, l’outil pourrait avoir un intérêt pour servir à remplir et peupler rapidement des environnements virtuels en trois dimensions. Cela inclut les jeux vidéo, des campagnes publicitaires, des projections de lieux, des outils de planification pour l’urbanisme ou des espaces d’entraînement numériques — dont l’IA pourrait aussi tirer parti.

Dans une vidéo de démonstration, Nvidia présente des prompts qui donnent lieu à un rendu en 3D. Une tortue, un oiseau, un chat sur un skateboard ou encore un café. Les visuels proposés ne sont certes pas photoréalistes, mais les formes et les proportions sont respectées, le travail relativement fin, les effets de texture et de couleur présents.

L’oiseau en amigurimi reprend ainsi cette impression de travail au crochet, avec de grosses mailles visibles. Le chat en origami inclut bien les effets de pliage avec un papier. Les prompts présentés à l’écran sont toutefois très basiques. Le fonctionnement sur des prompts plus longs et plus complexes reste à découvrir.

Générer de la 3D en quelques instants

Si la qualité du rendu sera diversement appréciée, Nvidia insiste toutefois sur un autre atout de LATTE3D : sa célérité. « Il y a un an, les modèles d’IA mettaient une heure à générer des images 3D de cette qualité, alors que l’état actuel de la technique est de 10 à 12 secondes », selon Sanja Fidler, la vice-présidente de la recherche en IA chez Nvidia.

Avec cet outil, décrit comme « une imprimante 3D virtuelle », il est possible de « produire des résultats beaucoup plus rapidement, ce qui met la génération de texte en 3D en temps quasi réel à la portée des créateurs de tous les secteurs d’activité », ajoute-t-elle. Surtout, elle ouvre la porte à celles et ceux novices en modélisation.

Surtout, un tel outil est censé mieux refléter la pensée du modélisateur ou de la modélisatrice. Au lieu de parcourir une bibliothèque de ressources 3D en espérant trouver la représentation la plus conforme au projet, autant la créer de A à Z, en la décrivant précisément. Le temps de conception n’est plus tant un souci. Seule l’exactitude du prompt compte.

C’est pas de la qualité à la Unreal Engine 5, mais c’est un rendu honnête. // Source : Nvidia

Les démonstrations de Nvidia se sont focalisées sur des animaux et des objets de la vie quotidienne, mais ses performances ne sont pas limitées à ces deux catégories. LATTE3D peut tout à fait gérer d’autres demandes, s’il a été préalablement entraîné avec les ensembles de données adéquats. Des plantes, des voitures, du mobilier, etc.

Un prompt donne plusieurs propositions de formes 3D différentes. C’est ensuite à l’internaute de choisir le rendu qui lui plait le plus — on retrouve ce fonctionnement sur Midjourney, par exemple, lorsqu’il s’agit de générer des images. Une fois un rendu sélectionné, celui-ci peut être amélioré — mais cela peut prendre quelques minutes.

Côté technique, Nvidia indique que LATTE3D a été entraîné à l’aide des GPU Nvidia A100 Tensor Core. La gestion des prompts a été optimisée avec ChatGPT, « afin d’améliorer sa capacité à gérer les différentes phrases » d’un utilisateur pour décrire un objet 3D particulier. Ensuite, la génération peut se faire sur le GPU Nvidia RTX A6000.

Ce type de matériel n’est toutefois pas à la portée de tout le monde — sur les sites marchands, la carte est vendue plusieurs milliers d’euros. Trop cher pour le tout-venant qui voudrait s’emparer de ce modèle d’IA générative texte-3D, qui s’adresse manifestement encore à un public professionnel et spécialiste. Mais d’ici à quelques années ?

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Tout savoir sur NVidia