C’est, en somme, la réponse du berger à la bergère. À la mi-février, OpenAI faisait sensation en présentant Sora, une intelligence artificielle générative capable de fabriquer des vidéos. L’annonce avait eu lieu le lendemain de la sortie de Gemini 1.5, pour perturber la communication de Google. Aujourd’hui, l’heure est à la riposte pour la firme de Mountain View.
Lors de la conférence Google I/O 2024 qui se tient ce 14 mai aux États-Unis, Demis Hassabis a présenté le rival made in Google de Sora : Veo. Comme Sora, Veo est censé produire des vidéos pouvant atteindre un degré très pointu de photoréalisme, grâce un simple prompt — c’est-à-dire une instruction écrite de l’internaute.
Mais Veo peut aussi accueillir des instructions d’une autre nature : cela peut être des photographies bien des vidéos, ce qui donne à l’outil une dimension multimodale. L’outil peut gérer différents styles, mais aussi fournir une série d’itérations sur une même vidéo, si on lui donne des prompts additionnels — exactement comme ChatGPT, par exemple.
Des vidéos 1080p et dépassant la minute avec Veo
« Notre équipe a fait des progrès incroyables dans le domaine de la vidéo générative », s’est ainsi félicité Demis Hassabis, qui dirige DeepMind, l’une des filiales de Google spécialisées dans l’IA. L’intéressé a d’ailleurs indiqué que la qualité visuelle des rendus atteint la haute définition (1080p), sur une durée pouvant dépasser la minute.
Une précision notable, là où OpenAI a dit que Sora se limitait à 60 secondes. D’ailleurs, Demis Hassabis a suggéré que Veo pourrait prochainement avoir droit à de nouvelles améliorations, pour générer des scènes plus longues, ou pour recevoir diverses fonctionnalités — les détails en la matière restent toutefois assez chiches.
Sur scène, plusieurs séquences ont été projetées à l’écran, avec une mention assurant que les visuels n’ont pas été retouchés après les prompts. Sur X (ex-Twitter), le compte de DeepMind a également publié plusieurs tweets sur deux fils de discussion. Dans chaque message, la filiale de Google livre un prompt et un résultat en vidéo.
Demis Hassabis en a aussi profité pour mettre les choses au point. Certes, OpenAI a attiré l’attention en début d’année avec Sora. Mais il a insisté sur l’investissement de longue date de Google dans l’IA générative de vidéos. Sur scène, il a cité plusieurs projets sur lesquels les équipes du groupe ont travaillé — GQN, Phenaki, Walt, VideoPoet ou encore Lumiere.
Veo est disponible à titre expérimental dans Gemini à la rubrique pour convertir du texte en vidéo.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !