C'est la curiosité du jour, découverte par Gildas Ribot sur les forums de Numerama. En fouillant le code source d'Android, Gildas a remarqué qu'Android utilisait un dictionnaire de mots, matérialisé dans le fichier fr-wordlist.combined, ce qui jusqu'ici n'a rien d'anormal. Il est en effet nécessaire aux correcteurs orthographiques et autres saisies semi-automatiques avec le clavier virtuel du système d'exploitation. Mais ce qui est plus surprenant, c'est que Google a classé l'ensemble des mots du dictionnaire en cinq catégories de mots, dont quatre catégories spéciales signalées par quatres "flags" différents, qui semblent être :
- "n" : mots obscènes
- "e" : mots racistes, xénophobes ou homophobes
- "p" : mots pédophiles
- "r" : mots vulgaires
Pour le moment, on ne sait rien des raisons pour lesquelles ces flags existent dans le code source d'Android, et ce qui a motivé de séparer par exemple les termes à connotation pédophile et raciste, alors qu'ils auraient pu être regroupés dans une même catégorie de termes dont l'utilisation pose un risque pénal. On ne sait pas non plus si ces flags sont exploités par Google, ou s'ils ont juste été créés en prévision d'un éventuel filtrage (activation d'un filtrage parental par exemple).
Ces listes montrent, en tout état de cause, ce que Google pourrait considérer comme de la vulgarité à surveiller dans les Hangouts, ou sur quelles bases les "recherches dépravées" pourraient être bloquées. Les plus paranoïaques se diront que la liste peut être utilisée pour établir un profil psychologique de l'utilisateur, en fonction de la fréquence d'utilisation des mots de chaque catégorie.
Ainsi par exemple, dans les mots prétendument obscènes, on retrouve des termes comme "allaitement", "amateurs", "bisexuel", "charnel", "exposée", "lactation", "libido", "nudité", "postérieur", "professionnelle", "relation", "sein", ou encore "volage". Des termes qui sont sans doute moins destinés à être censurés qu'à détecter par associations la nature du contenu d'une page visitée par l'internaute.
De même dans les termes racistes, xénophobes ou homophobes, on retrouve des mots comme "caillera" (ou "racaille"), "crépu", "frisé", "israélite", "judas", "négritude", "néonazi", "swastika", "tante", ou "épuisé" (?).
Dans les termes pédophiles, on retrouve exclusivement les termes qualificatifs "pédophile", "pédophilie", "pédéraste", "pédérastes", et "pédérastie". Pourquoi leur avoir consacré une catégorie à part entière ?
Enfin, la liste des mots "vulgaires" comprend des termes dont il faut vraiment chercher la vulgarité, comme "boute-en-train", "blasé", "castration", "fessier", "marteau", "maudit", "timbré", "trou", ou "énervé".
S'il se trouve parmi vous des développeurs capables de voir dans quel contexte ces flags sont utilisés par Android, n'hésitez pas à nous le faire savoir.
Mise à jour : Samuel Tardieu apporte une première explication possible sur Twitter :
@gchampeau @Numerama @Giribot On peut, au moins sous KitKat, faire de la reconnaissance vocale off-line, et les mots offensants sont coupés.
— Samuel Tardieu (@rfc1149) 3 Décembre 2013
@gchampeau @Numerama @Giribot Le choix de mots étoilés (***) ou non est aussi possible dans les préférences.
— Samuel Tardieu (@rfc1149) 3 Décembre 2013
@gchampeau @Numerama @Giribot Paramètres / Langue et saisie / Recherche vocale / Bloquer terme choquants.
— Samuel Tardieu (@rfc1149) 3 Décembre 2013
@gchampeau @Numerama @Giribot Et … / Recherche vocale / Reconnaissance vocale hors connexion (ici se passe le choix des packs de langue)
— Samuel Tardieu (@rfc1149) 3 Décembre 2013
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !