Google lance Veo, son concurrent de Sora (OpenAI) pour générer des vidéos artificielles

Lors de la conférence I/O, Google a présenté Veo, un outil d’intelligence artificielle spécialisé dans la génération de vidéos. Un projet annoncé quelques mois après celui d’OpenAI (Sora).

C’est, en somme, la réponse du berger à la bergère. À la mi-février, OpenAI faisait sensation en présentant Sora, une intelligence artificielle générative capable de fabriquer des vidéos. L’annonce avait eu lieu le lendemain de la sortie de Gemini 1.5, pour perturber la communication de Google. Aujourd’hui, l’heure est à la riposte pour la firme de Mountain View.

Lors de la conférence Google I/O 2024 qui se tient ce 14 mai aux États-Unis, Demis Hassabis a présenté le rival made in Google de Sora : Veo. Comme Sora, Veo est censé produire des vidéos pouvant atteindre un degré très pointu de photoréalisme, grâce un simple prompt — c’est-à-dire une instruction écrite de l’internaute.

Mais Veo peut aussi accueillir des instructions d’une autre nature : cela peut être des photographies bien des vidéos, ce qui donne à l’outil une dimension multimodale. L’outil peut gérer différents styles, mais aussi fournir une série d’itérations sur une même vidéo, si on lui donne des prompts additionnels — exactement comme ChatGPT, par exemple.

Des vidéos 1080p et dépassant la minute avec Veo

« Notre équipe a fait des progrès incroyables dans le domaine de la vidéo générative », s’est ainsi félicité Demis Hassabis, qui dirige DeepMind, l’une des filiales de Google spécialisées dans l’IA. L’intéressé a d’ailleurs indiqué que la qualité visuelle des rendus atteint la haute définition (1080p), sur une durée pouvant dépasser la minute.

Veo minute — Des vidéos au-delà de la minute. // Source : Google

Une précision notable, là où OpenAI a dit que Sora se limitait à 60 secondes. D’ailleurs, Demis Hassabis a suggéré que Veo pourrait prochainement avoir droit à de nouvelles améliorations, pour générer des scènes plus longues, ou pour recevoir diverses fonctionnalités — les détails en la matière restent toutefois assez chiches.

Sur scène, plusieurs séquences ont été projetées à l’écran, avec une mention assurant que les visuels n’ont pas été retouchés après les prompts. Sur X (ex-Twitter), le compte de DeepMind a également publié plusieurs tweets sur deux fils de discussion. Dans chaque message, la filiale de Google livre un prompt et un résultat en vidéo.

Introducing Veo: our most capable generative video model. 🎥

It can create high-quality, 1080p clips that can go beyond 60 seconds.

From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO pic.twitter.com/6zEuYRAHpH
— Google DeepMind (@GoogleDeepMind) May 14, 2024

Demis Hassabis en a aussi profité pour mettre les choses au point. Certes, OpenAI a attiré l’attention en début d’année avec Sora. Mais il a insisté sur l’investissement de longue date de Google dans l’IA générative de vidéos. Sur scène, il a cité plusieurs projets sur lesquels les équipes du groupe ont travaillé — GQN, Phenaki, Walt, VideoPoet ou encore Lumiere.

Veo est disponible à titre expérimental dans Gemini à la rubrique pour convertir du texte en vidéo.

Pour aller plus loin

Sundar Pichai // Source : Nicolas Lellouche

C’est la fin des recherches Google que nous connaissons

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !