Cet accident de voiture Tesla n'a jamais eu lieu

Une photo ultra-réaliste créée par IA a été partagée sur Reddit. Bien que des internautes aient pu repérer des bizarreries en l’analysant de près, ce cliché constitue un nouvel avertissement : il devient de plus en plus difficile de repérer les visuels factices.

C’est peut-être une image que vous avez croisée en vous baladant sur Reddit au cours du week-end. Dans la sous-communauté dédiée à ChatGPT, un internaute a ouvert un fil de discussion intitulé « Croyez-le ou non, cette image est de l’IA », dans lequel il a publié un visuel effectivement très spectaculaire, que l’on pourrait confondre avec une photographie.

Un faux accident avec une voiture Tesla, par Midjourney

La scène montre un accident de la circulation survenu la nuit dans une ville aux États-Unis. On comprend que l’automobile a tapé très fort à l’avant, puisque tout le capot est détruit et des débris sont éparpillés au sol. On pourrait supposer que la photo a été prise par le conducteur (il n’y a plus personne à bord) ou un témoin, après le crash.

Comme ce « cliché » a été partagé dans une rubrique dédiée à l’intelligence artificielle générative, les internautes qui ont commenté se sont montrés très vigilants — leur présence dans ce sous-forum signale que l’on a affaire avec un public davantage éduqué à l’IA générative. En tout cas, qui s’y intéresse et qui a un œil sans doute plus « entrainé ».

voiture factice une midjourney — La fausse voiture Tesla, par Midjourney.

Ainsi, une lecture plus attentive des détails de la photo a permis de relever plusieurs bizarreries. Les internautes ont signalé :

la double ligne jaune sur la voie, qui devient en suite une ligne blanche discontinue ;
aucun airbag visible dans l’habitacle ;
le pare-brise avant intact ;
l’absence d’autres feux à l’intersection, en arrière-plan (hormis ceux qui font face à la « caméra ») ;
l’intérieur anormal du capot et du bloc moteur (les spécialistes en mécanique ont relevé l’absence de tel ou tel élément) ;
les portières et les vitres latérales manifestement intactes, comme les roues avant, malgré la violence apparente du choc.

Notre journaliste spécialisée dans le secteur automobile, Raphaëlle, a aussi noté d’autres étrangetés. Par exemple, la carrosserie n’est pas censée finir éclatée en petits morceaux — ce n’est pas du carbone. Ce devrait être de la tôle froissée. Il peut y avoir certes des débris, mais le capot n’aurait pas dû se fragmenter ainsi (sauf à supposer qu’il est hors champ).

L’espèce de tige posée à terre, au premier plan, n’a également aucun sens. La position de toutes les voitures face aux différents feux, rouges et verts, est aussi suspecte. Certains véhicules se trouvent a priori à contre-sens sur l’image, compte tenu de la largeur importante de la voie. Enfin, les panneaux de signalisation ont un rendu imparfait.

Cette image a été générée sur Midjourney, un puissant outil de création par IA. La plateforme prépare actuellement la sortie de la version 6 de son générateur (elle est disponible en alpha depuis décembre). La version 1 date de février 2022. En l’espace de deux ans, la progression de Midjourney a été phénoménale, avec des rendus désormais photoréalistes.

En réalité, cette image avait déjà circulé une première fois le 26 mars, mais dans la sous-communauté dédiée à Midjourney. Elle n’avait toutefois pas reçu la même attention qu’aujourd’hui : 582 votes et 39 commentaires, contre 16 000 votes et 1 800 commentaires sur l’image envoyée dans le sous-Reddit de ChatGPT.

Impossible d’avoir un haut degré de vigilance en permanence, sur tous les sujets

Cette photo ultra-réaliste n’est évidemment pas la première du genre à surgir sur le net pour montrer à quel point l’IA générative a progressé. Ce ne sera pas non plus la dernière. Les commentaires des internautes suggèrent en tout cas à quel point il devient compliqué de ne pas se faire avoir au premier coup d’œil avec une image factice.

Ici, les commentaires ont collégialement trouvé de nombreux indices qui ne collent pas avec le réel, parce que celles et ceux qui les ont rédigés trainent sur des forums spécialisés dans l’IA générative. Idem pour ma collègue, qui connaît très bien les voitures. Son œil est habitué à voir des véhicules, qu’ils soient intacts ou non.

Maintenant, qu’en serait-il si cette photo surgissait dans un fil sur Twitter ou dans une publication lambda sur Facebook, Instagram ou Reddit ? Tous les indices mentionnés ci-dessus seraient-ils vus ? Ou ne serait-ce qu’un seul d’entre eux ? On peut franchement en douter, vu le temps assez bref que l’on passe devant une image.

Pour aller plus loin

Une version floutée de la photo mise en cause

La photo de ce manifestant âgé ensanglanté a-t-elle été générée par une IA ?

Il faut également imaginer cette problématique en le transposant dans un domaine que l’on ne maitrise pas. Un fan de voiture ne tomberait peut-être pas dans le panneau. Mais si on lui présente une image factice d’un pont généré par IA, il pourrait cette fois se faire berner. Idem si on lui montre un bouleau pubescent. Il n’aura pas nécessairement l’œil.

Dans le premier thread qui a partagé l’image, le prompt initial a été donné. Il s’agit de l’instruction :

Iphone snapchat photo of tesla cybertruck that just got into car accident, front of the car is wrecked, california –ar 3:2 –style raw

Écartons immédiatement le point faible de cette consigne : Midjourney n’a pas réussi à générer un Cybertruck, au look si caractéristique, tout en métal et en angles saillants. Ici, il s’agit plutôt d’un modèle classique, type Model Y ou Model 3, compte tenu des poignées de porte. On note aussi l’absence de règles techniques.

Le prompt donne juste le ratio de l’image (ar 3:2) et l’ordre d’utiliser le mode raw. Le reste est essentiellement une description de la scène voulue, avec une voiture Tesla venant d’avoir un accident, en Californie, avec l’avant de la voiture détruit. Il est précisé que cela doit ressembler à une photo prise par un iPhone, via l’application Snapchat.

C’est tout. Il n’y a pas d’indication sur l’éclairage ou la nécessité de viser un rendu ultra-réaliste, pour orienter le rendu dans telle ou telle direction. Dans d’autres cas, les prompts pour obtenir du rendu ultra-réalistes — et très difficilement discernables — se sont avérés bien plus complexes. C’est le cas de ces visuels factices montrant une série de visages.

Le prompt utilisé était :

amateur photo taken at dawn of a (insert)-year-old (insert nationality or ethnicity) (insert gender), medium shot, looking directly into the camera lens, captured with an Arri Live camera using a 23mm F2.8 lens during golden hour, Utilizing Kodak Portra 400 film to enhance the warm, soft natural lighting that embraces the scene. The background is plain and unadorned, providing a clear and unfiltered view of the subject, similar to the style of images on thispersondoesnotexist.com. –style raw –stylize 0 –v 6

Pour aller plus loin