Comme d’autres, OpenAI s’intéresse aux voix synthétiques, pour permettre à une IA d’imiter la voix d’une personne. Le groupe de Sam Altman prétend avoir trouvé un moyen de générer un clone vocal d’un humain en seulement 15 secondes.

Dans un futur proche, pourra-t-on donner à ChatGPT la voix de son meilleur ami, d’un parent ou, pourquoi pas, sa propre voix ? Le modèle vocal créé par OpenAI fin 2022, sobrement appelé « Voice Engine », semble de plus en plus efficace. Des géants comme Apple permettent de générer une voix en 15 minutes, OpenAI dit pouvoir le faire en 15 secondes. Il lui suffirait d’écouter n’importe quelle personne pendant ce laps de temps pour générer une voix de synthèse capable même d’imiter des émotions.

Au-delà de l’exploit, un intérêt pour l’accessibilité

C’est dans un billet de blog publié le 29 mars qu’OpenAI détaille son moteur vocal. L’entreprise, qui se dit « prudente », imagine plusieurs usages pour son modèle révolutionnaire. Parmi eux :

  • L’assistance dans la lecture, pour aider des personnes à se concentrer avec une voix familière.
  • La traduction en temps réel, pour permettre d’apprendre ou de parler une autre langue avec sa propre voix.
  • L’accessibilité, en ciblant les personnes qui ne peuvent pas ou ne peuvent plus parler.
Sur son site, OpenAI permet d'écouter plusieurs exemples.
Sur son site, OpenAI permet d’écouter plusieurs exemples. // Source : OpenAI

Les quelques extraits publiés par OpenAI sont impressionnants, puisqu’on ne distingue pas de différences entre l’extrait d’origine et la voix générée. Voice Engine est déjà le modèle qui alimente ChatGPT Voice, ainsi que les podcasts traduits dans Spotify.

Vous ne pourrez pas cloner une célébrité

« Nous reconnaissons que la production d’un discours qui ressemble à la voix des gens présente des risques sérieux, qui sont particulièrement importants en cette année d’élections. » dit OpenAI en fin de communiqué, pour rassurer sur ses intentions. Voice Engine n’est pas à disposition du grand public pour éviter les dérives et les entreprises qui l’utilisent s’engagent à ne pas usurper l’identité d’autrui.

Pour éviter les usages négatifs, OpenAI a ajouté un watermark audio à sa technologie, qu’une machine peut détecter. « Nous pensons que tout déploiement à grande échelle de la technologie de la voix synthétique devrait s’accompagner d’expériences d’authentification vocale permettant de vérifier que le locuteur original ajoute sciemment sa voix au service et d’une liste de voix interdites permettant de détecter et d’empêcher la création de voix trop semblables à des personnalités » ajoute l’entreprise.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Marre des réseaux sociaux ? Rejoignez-nous sur WhatsApp !