Nvidia a trouvé un astuce pour diffuser votre visage par webcam, mais sans la vidéo

Nvidia présente ses derniers progrès en matière d’intelligence artificielle. Son dernier projet, Maxine, permet de réduire drastiquement l’utilisation de la bande passante lors d’un échange par webcam. Pour cela, le modèle de l’industriel n’a besoin que d’une seule photo, d’un nuage de points et de cloud.

Votre bande passante est trop poussive pour vous permettre de diffuser une vidéo par webcam de bonne qualité ? Bonne nouvelle : des recherches en informatique pourraient bientôt vous venir en aide, même si votre débit est au plus bas. Et le salut ne viendra pas ici des codecs du futur, comme AV1 et H.266/VVC, mais des nouveaux algorithmes de traitement d’image inventés par Nvidia.

Le spécialiste des cartes graphiques a présenté le 5 octobre une démonstration de son nouveau projet, appelé Nvidia Maxine.

De la webcam, mais sans la vidéo

Dans les grandes lignes, Maxine consiste à compresser une vidéo grâce à l’intelligence artificielle, mais sans dégrader le résultat final, et cela même si la liaison se dégrade. L’idée ? Au lieu d’envoyer un flux vidéo depuis une webcam, c’est-à-dire en fait 24 images par seconde (ou une cadence différente selon les réglages) pendant toute la durée de l’appel, une seule image serait transmise au destinataire.

Avec cette image, prise en bonne qualité, Nvidia appliquerait ensuite une animation dessus grâce à un nuage de points sur les endroits stratégiques du visage de celui qui se filme en webcam : la bouche, les yeux, le contour du visage, le nez ou encore les joues. Ensuite, grâce à un réseau antagoniste génératif (ou GAN, pour generative adversarial network), le visage statique de la photo serait animé grâce à ces points.

Le fonctionnement général : le système récupère une image référence puis capte le mouvement du visage grâce à un nuage de points. Un modèle d’IA associe ensuite le tout pour animer l’image statique de façon cohérente, grâce aux points. // Source : Nvidia

Un réseau antagoniste génératif est une méthode d’apprentissage automatique qui n’est pas supervisée par un humain. Ici, deux réseaux de neurones artificiels — des systèmes informatiques qui se basent sur des modèles statistiques — coopèrent, avec un réseau qui produit un résultat, tandis que l’autre l’évalue. Le GAN est une approche déjà employée par Nvidia pour générer de faux visages criants de réalisme.

En somme, plus besoin de codec pour réduire le poids que peut avoir une vidéo : grâce à Maxine, il ne suffit plus que d’une photo et d’un nuage de points pour atteindre le même résultat — seule contrainte, que la connexion soit active pour, justement, expédier la position actualisée de chaque point au fur et à mesure de la conversation, et en temps réel, pour que le GAN cale les bons mouvements du visage.

Selon Nvidia, le gain de bande passante est évident. Avec un codec H.264, qui est l’un des plus répandus, il faut 97,28 Ko par image lors d’une session par webcam. Avec l’outil de compression de vidéo par IA, 0,1165 Ko par image. Et la différence entre les deux s’avère presque imperceptible : ce n’est qu’en se concentrant que l’on remarque que la vraie vidéo est plus nette et plus détaillée.

Cette légère perte dans le piqué de l’image n’est guère gênante. C’est un bon compromis pour garantir une image stable, à la fois en termes de qualité et de fluidité. Nvidia montre d’ailleurs que si une vidéo avec le codec H.264 peut être plus précise de base, toute chute, même légère, de la bande passante peut vite virer à la bouillie de pixels — et c’est pire si l’on veut approcher la bande passante utilisée par Maxine.

Une telle technologie a plusieurs avantages, à commencer par une amélioration du confort de visionnage, même si dans le cas de figure où l’émetteur ou le récepteur a sa connexion qui hoquète. Elle libère également la bande passante pour d’autres usages, par exemple à la maison si d’autres personnes regardent des vidéos en streaming. Et pour des forfaits mobiles, cela préserve l’enveloppe de données.

Comme le système imaginé par Nvidia n’a quasiment pas besoin de bande passante, l’image reste très nette comparée à une vidéo. // Source : Nvidia

Un intérêt environnemental potentiel

À plus long terme, elle pourrait aussi avoir une incidence favorable sur la question de plus en plus prégnante de l’impact écologique du numérique. On sait que la vidéo est l’une des activités les plus consommatrices de données sur le net, et cela ne s’arrange pas avec des formats toujours plus spectaculaires, comme le 4K et le 8K (même si les nouveaux codecs s’emploient à compresser le flux autant que possible.

Un bémol, toutefois : cette méthode nécessite de la puissance de calcul, qui est déportée dans le cloud de Nvidia. Si le flux lui-même sollicite moins les réseaux, le procédé mobilise les centres de données de l’industriel américain, ce qui, de fait, consomme de l’énergie. Mais là aussi, le sujet environnemental est une préoccupation, ne serait-ce que pour alléger la facture d’électricité.

Si Maxine ne peut sans doute pas marcher pour toutes les vidéos, car les scènes d’un film ou d’une série changent trop souvent pour pouvoir se baser sur une seule image pour l’animer grâce à un nuage de points, ce modèle a un avenir pour la webcam, où les plans ne bougent presque pas — que ce soit en privé ou non. Surtout à l’heure du télétravail, du risque de confinement et de l’épidémie de coronavirus.