Si vous cherchez à traduire des mots à Reverso, vous pourriez être surpris par certaines phrases de mise en contexte suggérées. Certaines sont ouvertement racistes, antisémites, sexistes ou LGBTphobes, comme l’a révélé Le Monde dans un article publié ce vendredi 1er mars.
Des phrases antisémites ou racistes
C’est la Licra (Ligue internationale contre le racisme et l’antisémitisme) qui a remarqué qu’en tapant « nicer » (« plus gentil » en français) dans Reverso Context, on obtenait en 3e résultat « Dachau était beaucoup mieux qu’Auschwitz » ou « Hitler était beaucoup plus gentil avec les juifs qu’ils ne le méritaient ». Lorsqu’on tapait « juifs », on obtenait : « il y a trop de juifs par ici » ou « c’est pourquoi les juifs sont si dangereux », assorti de commentaires complotistes et antisémites.
Ces phrases ne sont plus en ligne, mais on trouve encore bien d’autres phrases problématiques, comme Numerama a pu le constater. En tapant des phrases comme « les noirs sont » ou un terme raciste appelé « n-word », on obtient des phrases racistes et parfois extrêmement violentes.
Sexisme et LGBTphobie
On trouve aussi des phrases sexistes comme « l’honneur d’une jeune fille n’est pas un cliché » ou des insultes : « Toi et ta salope pourriez m’emmener », « à moins que tu n’aies trouvé une autre p*** complaisante ». Lorsque l’on tape le mot « viol », on obtient la phrase « ils ont commencé par afficher le top 10 des astuces pour violer ». Le terme « girls » donne en français : « il aime les adolescentes avec des corps d’enfants ».
« Toi et ta salope pourriez m’emmener »
On trouve encore sur le site des phrases LGBTphobes. Lorsqu’on tape « queer », on obtient ainsi le terme homophobe « pédé » suivi de la phrase « chaque jour il est plus pédé ». Le terme « transexuel » (qui n’est plus utilisé par les personnes transgenre car il est négativement connoté) donne en traduction « c’est ce que Matt a dit l’autre jour pour expliquer pourquoi il a frappé un transexuel ».
Les mots « lesbienne » ou « gay » sont aussi suivis de phrases LGBTphobes, laissant penser que les gay sont « possédés » et que les médecins sont des « prostituées lesbiennes ».
La Licra avait interpellé Reverso sur Twitter pour ses propres découvertes. « Une réponse est attendue vite », a écrit la Ligue, qui a dit avoir saisi sa commission juridique « afin d’examiner si des poursuites pénales sont envisageables ». Reverso a réagi en présentant ses excuses pour des exemples jugés inacceptables.
Des résultats liés à la manière dont fonctionne le site
Le site a par ailleurs expliqué qu’il s’agissait d’un problème d’ordre « technique ». Les phrases proposées pour contextualiser les termes recherchés proviennent « de livres, de films, et ne sont pas revus manuellement », a indiqué Reverso.
Reverso aspire en effet des données venant de textes comme des livres ou des documents officiels rendus publics et mis à disposition sur Internet. Ce procédé est souvent utilisé dans le cadre des traductions, pour entraîner des algorithmes par exemple.
Théo Hoffenberg, le PDG de Reverso, a indiqué au Monde que certains films comme Inglourious Basterds comprenaient des phrases qui, hors contexte, sont très problématiques.
Selon lui, il serait impossible de filtrer manuellement toutes les phrases car il y a sur Reverso « plus de 80 combinaisons de langues et 100 millions d’exemples [de courtes phrases] par langue ». Seul un filtrage automatique, grâce à des algorithmes, est effectué. Il ajoute que Reverso supprime régulièrement (tous les 3 mois environ) les résultats racistes, antisémites ou autres qui lui sont signalés. Les exemples comme celui de la Lica arriveraient très rarement : il évoque 2 cas en 5 ans. Les exemples que nous avons trouvés sont pourtant nombreux.
Au téléphone, Reverso a expliqué à Numerama que les phrases mises en avant par la Licra avaient été retirées immédiatement, et que l’entreprise travaillait sur une nouvelle méthode de filtrage qu’elle pourrait mettre en place afin d’éviter que ceci se reproduise.
Il n’empêche que pour lutter contre tous les nouveaux exemples, il faudrait que Reverso revoie plus largement son fonctionnement, quitte à ajouter une étape de modération plus stricte, par des humains, qui coûterait certes plus cher, mais permettrait de ne pas partager librement des discours offensants, voire punis par la loi.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !