Dans cette vidéo de Barack Obama, la voix est bien celle de l’ancien président américain… mais les propos qu’il tient proviennent en réalité d’autres interventions. L’illusion est pourtant (presque) totale.
Et pour cause : une équipe d’informaticiens de l’université de Washington a réussi à créer un réseau de neurones artificiels capable de convertir des pistes audio de Barack Obama en reproductions visuelles de sa bouche pour synchroniser ses propos avec la vidéo utilisée comme support.
Une prouesse remarquable — aidée par le financement de Facebook, Google, Samsung et Intel –, quand on sait que la superposition d’extraits audio non concordants avec une image est traditionnellement démasquée par cette non-synchronisation entre le mouvement des lèvres et les paroles entendues.
14 heures de vidéos sources
Les scientifiques précisent que Barack Obama faisait office de cobaye idéal puisqu’on trouve des heures de vidéo de lui — grâce notamment aux interventions vidéo hebdomadaires organisées pendant son mandat — accessibles publiquement.
Supasorn Suwajanakorn, le responsable principal de cette recherche — qui travaille essentiellement sur la vision par ordinateur — détaille : « En s’entraînant sur 14 heures tirées des vidéos hebdomadaires d’intervention du président, un réseau de neurones artificiels apprend à convertir ces éléments audio bruts en formes de la bouche. Au vu de sa forme à chaque instant, nous synthétisons une texture de [lèvres] de grande qualité […] pour modifier [dans la vidéo finale] ce qu’il semble dire en concordance avec la piste audio d’origine. »
Ces mouvements réalistes et synchronisés de la bouche sont en effet intégrés au visage de la personne visible sur une autre vidéo mais dans un contexte totalement différent. L’équipe a donc isolé des extraits audio de Barack Obama sur certains sujets pour lui faire parler pêle-mêle de terrorisme, de la paternité ou encore de la création d’emplois sur la vidéo finale.
L’équipe vante de futures applications pratiques
Le système est encore perfectible : les scientifiques ont eux-mêmes reconnu ses faiblesses, comme un problème d’alignement entre la bouche et le visage ou la difficulté de faire concorder des émotions faciales au ton employé à certains moments du discours.
« Les gens sont très sensibles à la moindre zone de la bouche qui ne semble pas réaliste. Dès que vous ne reproduisez pas au mieux les dents ou que le menton bouge au mauvais moment, on le voit tout de suite et ça paraît faux » précise l’auteur principal de cette prouesse. D’où la nécessité d’une reproduction parfaite.
Ira Kemelmacher-Shlizerman, du département d’informatique et d’ingénierie de l’université, se réjouit de cette avancée : « Ce type de résultat n’avait encore jamais été montré. Une conversion réaliste de l’audio à la vidéo présente des usages pratiques, comme l’amélioration des visio-conférences pendant les réunions, ou encore la possibilité future de discuter avec une figure historique en réalité virtuelle grâce à la création d’images depuis l’audio. C’est le genre d’avancée qui permettra d’aboutir à ces prochaines étapes. »
Skype et Messenger pourraient notamment en bénéficier, selon Steve Seitz, co-auteur de ce travail : « Quand vous êtes sur Skype […], la connexion est souvent irrégulière et de mauvaise résolution alors que le son est plutôt bon. Ce serait génial d’utiliser celui-ci pour produire une vidéo de bien meilleure qualité. »
Le futur outil des auteurs de fake news ?
Si l’avancée est techniquement impressionnante, il est légitime de s’interroger sur ses potentielles si elle devait se généraliser. Les créateurs actuels de fake news — le terme fétiche du successeur de Barack Obama pour désigner certains médias — se feraient un plaisir d’inonder le web de fausses vidéos considérées comme véridiques par les internautes, dans lesquelles il serait particulièrement difficile de démêler le vrai du faux.
Pour l’instant, ce réseau de neurones artificiels est seulement capable d’« imiter » la bouche d’une unique personne, en l’occurrence Barack Obama. À terme, l’idée est de pouvoir identifier tout individu et de reproduire son discours sur une vidéo à l’aide de beaucoup moins de données, en passant par exemple de 14 heures de contenu à seulement une heure.
Steve Seitz se veut rassurant : « Vous ne pouvez pas prendre la voix de n’importe qui et la transformer en vidéo d’Obama. Nous avons fait le choix conscient de nous orienter vers une méthode permettant de glisser les mots de quelqu’un dans la bouche d’autrui. Nous prenons simplement de véritables mots prononcés par quelqu’un pour les transformer en vidéo de cette personne. »
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !