Microsoft a présenté en Chine ses derniers progrès en matière de traduction, et ils sont impressionnants. La firme est désormais capable de synthétiser vocalement une traduction de ce que dit l’interlocuteur, en utilisant sa propre voix, dans une poignée de secondes.

Microsoft semble avoir une véritable avancée sur le marché de la traduction vocale, et être sur le point de commercialiser des solutions qui auront un impact considérable pour les relations internationales, en particulier dans le commerce. Alors que l’anglais s’est imposé comme la langue universelle, la firme de Redmond a développé des technologies impressionnantes pour permettre à chacun d’utiliser sa propre langue natale et de converser aussi naturellement que possible avec des étrangers.

En début d’année, nous avions déjà parlé de la présentation faite par Frank Soong, le responsable de la recherche vocale chez Microsoft, qui montrait qu’il était désormais possible d’utiliser la propre voix de l’utilisateur pour synthétiser vocalement la traduction. Mais à l’époque, la traduction était réalisée d’après des textes pré-enregistrés, ce qui ne permettait pas d’apprécier la rapidité du système.

Mais Microsoft vient de mettre en ligne la vidéo d’une démonstration publique réalisée le mois dernier lors de sa conférence Asian 21st Century Computing, par Richard Rashid. Dans un premier temps, le directeur de la recherche de Microsoft explique les progrès réalisés en matière de reconnaissance vocale, pendant que son discours est effectivement transcrit en temps réel, en anglais, sur un grand écran. Rick Rashid parle relativement lentement, mais la transcription en anglais est presque parfaite ; ce qu’il attribue à la combinaison de meilleurs algorithmes statistiques, et d’une base de données très importante (il ne dit pas comment Microsoft l’a acquise). 

Puis, le texte est traduit en temps réel en Chinois, avec un tout petit délai dû à la nécessité de ne pas traduire mot à mot. Et enfin, à partir de 7″35, le public peut entendre la voix de Richard Rashid parler Mandarin, grâce à la synthèse vocale :

https://youtube.com/watch?v=Nu-nlQqFCKg%3Ffeature%3Dplayer_embedded

Le processus prend actuellement 3 secondes environ, et Microsoft prévient qu’il reste encore beaucoup de travail à faire. Mais déjà, la firme dit avoir réussi à réduire d’un tiers les erreurs de reconnaissance vocale, avec désormais un taux d’erreurs d’environ 15 %, contre 25 % sur les solutions actuelles.

Culturellement, ce type d’outils pourrait être une révolution, qui aura le double bénéfice de permettre aux peuples de se parler sans barrière linguistique, et de sauvegarder la diversité des langues.

La seule société qui semble capable de concurrencer Microsoft sur ce terrain est Google, qui a lancé son système Conversation Mode dans Google Translate en octobre 2011.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !