OpenAI lance Sora, une IA qui crée des vidéos bluffantes avec du texte

L’IA générative n’en finit plus d’évoluer. OpenAI vient de lancer Sora, un modèle text-to-video qui convertit des phrases en des vidéos de 60 secondes, avec un résultat à la fois bluffant et troublant.

Jusqu’où vont aller les IA génératives ? Il y a un an, beaucoup se moquaient de cette IA qui tentait de reproduire l’acteur Will Smith en train de manger des pâtes. Aujourd’hui, l’heure n’est plus aux moqueries. Le 15 février 2024, OpenAI a lancé Sora, un modèle text-to-video dont les premiers résultats sont déjà impressionnants.

Comme toujours, le principe est assez simple : vous donnez des instructions à Sora et l’IA se charge de les convertir en un clip, dont la durée peut aller jusqu’à 60 secondes. OpenAI, qui a déjà révolutionné le secteur des IA génératives avec ChatGPT, promet des scènes « imaginatives et réalistes ». De quoi inquiéter les artistes qui mettent normalement plusieurs heures à produire ce genre de contenu.

Sora, l'IA qui transforme du texte en vidéo // Source : OpenAI — Cet homme a l’air d’exister, mais il n’existe pas. // Source : OpenAI

Sora est le nouvel outil puissant d’OpenAI

« Sora peut créer des vidéos d’une durée allant jusqu’à 60 secondes avec des scènes détaillées, des mouvements de caméra complexes et de multiples personnages avec des émotions vibrantes », fait savoir OpenAI.

Dans ce tweet publié le 15 février, l’entreprise donne le prompt suivant : « La belle ville de Tokyo enneigée est agitée. La caméra se déplace au sein des rues animées, suivant plusieurs personnages en train d’apprécier la météo hivernale et de faire du shopping. Des pétales de Sakura volent dans l’air, en compagnie de flocons de neige. » Et voici le résultat :

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

On s’y croirait vraiment quand on regarde cette séquence, avec des animations réalistes, un respect total du scénario (ça manque de pétales et de flocons, si on veut chipoter) et une multitude de détails. OpenAI fournit d’autres exemples tout aussi bluffants, avec certains clips qui font penser à un véritable film d’animation digne de Pixar (ce petit monstre trop mignon).

Il y a encore des défauts, comme des jambes qui s’intervertissent dans une vidéo montrant une femme bien habillée en train de marcher dans les rues de Tokyo en pleine nuit (le souci est visible à la 15e seconde). Ils sont assumés par OpenAI : « Le modèle actuel a des faiblesses. Il peut rencontrer des difficultés en voulant simuler avec précision la physique d’une scène complexe, et peut ne pas comprendre des cas spécifiques de causalité. Par exemple, un personnage peut manger un morceau de cookie et, l’instant d’après, le cookie reste intact. »

Pour le moment, Sora n’est disponible que pour les membres Red, des experts chargés d’évaluer les risques. « Nous allons aussi garantir un accès à quelques artistes, designers et cinéastes pour obtenir des retours quant à la manière de faire avancer ce modèle dans la meilleure direction pour les professionnels créatifs. »