En février 2024, en annonçant Sora, OpenAI avait fait parler le monde entier. Le créateur de ChatGPT se disait capable de générer des vidéos ultra-réalistes à partir de phrases simples, ce qui laissait craindre le pire à l’heure de la désinformation et de la post-vérité. Toutes les vidéos publiées par OpenAI étaient incroyables : il était impossible de distinguer le vrai du faux.
Dix mois plus tard, Sora est enfin disponible. Le service, qui nécessite un VPN en France, est arrivée dans une première version grand public le 9 décembre 2024. Sora est-il à la hauteur des attentes ? Nous avons essayé la V1 de Sora pendant plusieurs heures et voici notre avis.
Une interface réussie, avec des outils simples à comprendre
Commençons par le positif : l’interface de Sora est très réussie.
OpenAI a pris la décision de lancer un site distinct, sora.com, plutôt que d’intégrer son générateur de vidéos à ChatGPT. On ne peut que saluer cette initiative qui permet de ne pas inonder le chatbot de nouveaux services, tout en offrant des outils dédiés à la vidéo dans une web-application. L’interface de Sora est suffisamment bien pensée pour que n’importe qui puisse l’utiliser (en attendant que le service soit suffisamment mature pour l’intégrer à ChatGPT, ce qui finira forcément par arriver).
Sur la page d’accueil de Sora, il y a plusieurs onglets dans une barre latérale :
- La section « Explore » permet de voir les créations des autres, pour s’en inspirer.
- La section « Library » affiche ses propres créations, pour les télécharger ou pour les modifier.
- Une barre flottante en bas de l’écran sert à générer une vidéo. Il suffit d’insérer une phrase et de choisir les paramètres de son choix. Bonne nouvelle : Sora comprend le français (mais traduit la demande en anglais).
- En haut à droite, il y a les réglages et la file d’attente, qui dit où en sont ses dernières demandes.
Les outils d’édition de vidéos sont aussi bien conçus, avec la possibilité de créer ce qu’OpenAI qualifie de « storyboard ».
Pour faire simple : on peut demander à Sora de générer une image à la première seconde, de créer une transition de flou, puis d’afficher autre chose à la troisième seconde. On peut ainsi diriger sa propre vidéo. On remarque d’ailleurs que Sora améliore systématiquement le prompt de son utilisateur en proposant de lui-même quelque chose de beaucoup plus long et précis.
Autre point fort : la rapidité. Quand il n’y a pas de problèmes techniques (le lancement de Sora a été compliqué, avec des serveurs pris d’assaut), Sora met en moyenne 30 secondes pour générer une vidéo. Le service dispose aussi d’une interface web, même si le téléchargement de vidéos est plus compliqué que sur ordinateur.
De trop nombreuses limites techniques qui réduisent l’intérêt de Sora V1
Malheureusement, tout n’est pas parfait. Un des gros problèmes de Sora est la présence de nombreuses limites techniques mises en place par OpenAI pour ne pas saturer ses serveurs. Seuls les abonnés payants à ChatGPT ont accès au service et seuls ceux qui payent 200 dollars par mois pour ChatGPT Pro peuvent vraiment en bénéficier dans son intégralité. ChatGPT Plus, à 20 dollars par mois, propose un Sora très bridé.
Avec ChatGPT Plus, on dispose de 1 000 crédits par mois, ce qui revient à 50 vidéos dans la qualité la plus basse (480p, dix secondes au maximum et une seule demande à la fois). Tout est fait pour dissuader l’utilisateur qui souhaiterait trop utiliser Sora, au risque de ne rien pouvoir faire après. On peut créer des vidéos de 10 secondes en 480p, mais seulement de 5 secondes en 720p. Il semble difficile de trouver un usage aux vidéos générées par Sora dans ces qualités.
Autre limite regrettable : Sora est capable de transformer une photo en vidéo, mais ne peut le faire correctement que si l’on paye l’abonnement à 200 dollars par mois. Autrement, il n’animera que des objets ou des animaux, les humains seront bloqués. On sent qu’OpenAI veut vendre son nouvel abonnement le plus cher.
Dernier problème technique : l’envoi d’image pour créer une vidéo est assez étrange, avec des résultats parfois très fidèles à la réalité, mais toujours trop différents pour être plausibles. En l’état, Sora est une expérimentation, mais pas un outil qui confond le vrai et le faux.
Nos premières vidéos générées avec Sora : du bon et du très mauvais
Et les vidéos dans tout ça ? Nous avons généré une quinzaine d’exemples, que vous pouvez retrouver dans un thread Twitter. Certaines vidéos sont très bonnes, d’autres (la plupart, en réalité) sont très moyennes.
Souvent, Sora a un gros problème avec la physique. L’exemple le plus marquant dans nos tests est celui d’un joueur de football qui raterait un pénalty. Pour une raison qui nous dépasse, Sora lui fait faire plusieurs acrobaties et ajoute un second tireur sur le terrain. La balle apparaît et disparaît sans que l’on sache trop pourquoi.
Autre exemple : celui d’un père Noël qui court sur les Champs Élysées. L’avenue parisienne est parfaite, avec des personnes réalistes qui marchent, mais le père Noël ne ressemble à rien. Son visage est caché, il a deux barbes et son bonnet n’a aucune physique. Dans d’autres vidéos, nous avons tenté de générer un chat super-héros et un aigle au-dessus d’un canyon. À chaque fois, la manière de se déplacer ne semble pas naturelle.
Dans certains cas, Sora produit des résultats impressionnants. Nos vidéos d’un homme sur son téléphone dans le métro et d’un koala qui mange une feuille sont dignes de la réalité. Sora est doué avec les tâches simples, où il y a peu d’action.
En revanche, pour créer une infographie en 2D d’un camion de livraison (nous imaginions l’introduction d’un reportage sur un centre de distribution Amazon), Sora fait n’importe quoi. Il génère du texte aléatoirement et mélange les images.
Sa connaissance de la géographie est aussi imparfaite. À Nice, Sora remplace les galets par du sable. Il confond aussi un homme et une femme, malgré une demande claire.
Dans une autre vidéo, toujours à Nice, il invente un aéroport qui n’est pas celui de la ville, tout en ne montrant pas le bon bateau. Les visages des humains sont bons, mais notre personnage principal n’a que quatre doigts.
Enfin, Sora est parfois capricieux au niveau du droit d’auteur. Nous comprenons parfaitement qu’il refuse d’animer une photo de la phryge, par peur d’enfreindre la loi, mais nous avons découvert qu’il refusait le terme « panda », sans que l’on sache pourquoi. Le prompt est converti en une « histoire » par l’outil, mais la vidéo finale refuse d’apparaître.
Contrairement à ChatGPT, qui avait immédiatement su provoquer un effet waouh, Sora est très imparfait. Il est probable que ce type d’outil devienne suffisamment performant pour générer des images ultra-réalistes à l’avenir, mais OpenAI a encore des progrès à réaliser.
En l’état, la V1 de Sora est surtout un super jouet pour les amateurs de nouvelles technologies, avec parfois de très bonnes surprises, mais pas un produit capable d’illustrer des projets professionnels. Pour ça, il faudra sans doute attendre plusieurs années.
Les abonnés Numerama+ offrent les ressources nécessaires à la production d’une information de qualité et permettent à Numerama de rester gratuit.
Zéro publicité, fonctions avancées de lecture, articles résumés par l’I.A, contenus exclusifs et plus encore. Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !