Depuis 2011, Facebook propose à ses utilisateurs de lire les publications étrangères dans leur propre langue, grâce à un partenariat avec l'outil de traduction Bing Translate de Microsoft. Lorsqu'un message est publié dans une autre langue, il suffit de cliquer sur "voir la traduction" pour comprendre aussitôt ce qu'il veut dire. Mais il semble que Facebook travaille sur son propre outil de traduction pour améliorer la fonctionnalité, en ayant recruté une équipe de chercheurs issus pour la plupart de l'Université Carnegie Mellon.
Dans une étude attribuée à Facebook Inc et publiée par le réseau social (mais présentée pour la première fois lors d'une conférence d'experts en décembre 2014), quatre chercheurs spécialisés dans la traduction automatisée ont présenté une méthode pour affiner la qualité des traductions par ordinateur, en utilisant les publications des utilisateurs de Facebook. Le but des chercheurs était d'enrichir le corpus de référence de textes en plusieurs langues, utilisé par apprentissage machine pour deviner les meilleures traductions possibles d'un texte selon des méthodes heuristiques.
L'HUMAIN EST PRÉVISIBLE
Mathias Eck, Yury Zemlyanskiy, Joy Zhang et Alex Waibel expliquent qu'ils ont ainsi réussi à améliorer la qualité des traductions obtenues par cette méthode en enrichissant automatiquement la base de données de phrases traduites, extraites des messages des utilisateurs de Facebook selon deux méthodes. La première est assez basique puisqu'il s'agissait simplement de prendre les messages que les utilisateurs avaient eux-mêmes traduits en plusieurs langues, ce qui est parfois le cas aux Etats-Unis lorsque des marques ou des personnalités veulent s'adresser à leur public à la fois en anglais et en espagnol. La deuxième méthode est en revanche beaucoup plus audacieuse.
Ils sont en effet partis du principe que des internautes du monde entier qui partageaient le même lien avaient certainement les mêmes choses à dire sur le contenu, et qu'il était possible de deviner par des méthodes algorithmiques les posts publiés dans des langues différentes qui voulaient dire exactement la même chose. Et ça fonctionne. La solution aurait obtenu de meilleurs résultats qu'avec le corpus de base, composé de traductions officielles réalisées par le Parlement Européen et de phrases traduites par la communauté Tatoeba.
La méthode a en outre pour avantage de se reposer sur un langage très naturel, avec son argot et ses fautes de grammaire ou d'orthographe courantes. Et avec 1,4 milliards d'utilisateurs dans le monde, Facebook apprendra très vite à traduire dans les différentes langues.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.