Pourra-t-on un jour regarder n’importe quelle vidéo en français, avec un doublage automatique fidèle à la voix du locuteur d’origine ? Kyutai, le laboratoire à but non lucratif financé notamment par Xavier Niel (Free), Rodophe Saadé (CMA CGM) et Eric Schmidt (Google), annonce dans un communiqué de presse paru le 6 février 2025 proposer la technologie de traduction vocale la plus aboutie à ce jour.
Après Moshi, un assistant vocal ultra-rapide (mais sujet à de grosses hallucinations), le laboratoire français vient de publier Hibiki, un nouveau modèle open source capable de convertir une voix française en une voix anglaise, en conservant la voix originale et le rythme du contenu source.
Hibiki va-t-il permettre une révolution dans la traduction vocale ?
Sur Github, Kyutai présente Hibiki comme « un modèle de traduction vocale en continu ». Hibiki adapte son flux pour proposer une traduction en temps réel, qui n’a pas besoin d’attendre la fin de la première phrase pour lancer la traduction. « Au fur et à mesure que l’utilisateur parle, Hibiki génère un discours naturel dans la langue cible, éventuellement avec un transfert vocal, ainsi qu’une traduction textuelle », explique Kyutai, qui a également publié un papier de recherche.
Hibiki utilise la même architecture que Moshi pour modéliser simultanément la parole source et la parole traduite. Le modèle peut générer un flux audio en continu, en imitant la voix de son locuteur.
![Kyutai détaille le fonctionnement de son modèle sur Github. Kyutai détaille le fonctionnement de son modèle sur Github.](https://c0.lestechnophiles.com/www.numerama.com/wp-content/uploads/2025/02/image-1-1024x715.png?resize=1024,715&key=b411796f)
Pour l’instant, Kyutai propose deux versions de son modèle :
- Hibiki, qui nécessite un traitement cloud.
- Hibiki-M, qui peut fonctionner localement sur un smartphone.
Les modèles sont actuellement entraînés sur des séquences de 120 secondes, ce qui limite encore leur utilisation. Un jour, Hibiki sera peut-être capable de traduire un appel téléphonique ou un épisode de série.
D’autres services de traduction permettent de conserver la voix du locuteur, comme EzDubs ou ElevenLabs, mais ils n’utilisent pas le même flux en temps réel que Hibiki. Kyutai semble miser sur cette technologie pour aller plus loin que la concurrence avec la voix. Ses modèles n’ont pas besoin de convertir de l’audio en texte pour fonctionner : ils reconnaissent directement le son.
D’autres langues bientôt ?
Pour l’instant, Hibiki ne sait transformer que le français en anglais. Les chercheurs ont choisi de l’entraîner dans cette configuration et disent proposer une technologie à l’état de l’art, ce qui signifie que personne ne fait mieux dans l’industrie. La publication du code open source permettra aux chercheurs étrangers qui le souhaitent d’adapter Hibiki à d’autres langues.
L’annonce d’Hibiki intervient dans le cadre du sommet pour l’action sur l’intelligence artificielle, qui aura lieu en France le 10 et 11 février.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !