Une expérience menée par l’université de Stanford montre que le logiciel de reconnaissance vocale Deep Speech 2 de Baidu peut écrire un message trois fois plus rapidement qu’un humain, et avec une plus grande précision.

Les reconnaissances vocales embarquées par les smartphones souffrent parfois d’une mauvaise image auprès du public. Cette technologie si prometteuse peut s’avérer être parfois trop lente et fait encore de nombreuses erreurs de compréhension. Ce n’est pourtant pas la conclusion à laquelle arrive une expérience menée à l’université de Stanford qui observe que cette technologie peut être trois fois plus rapide qu’un être humain pour écrire un message, tout en étant plus précis, ce que nous avions nous-mêmes constaté avec la dictée sous Google Docs, imparfaite mais bluffante.

« La reconnaissance vocale est quelque chose que l’on promet depuis des décennies mais cela n’a jamais vraiment marché », explique James Landay, professeur de sciences informatiques à Stanford et co-auteur de cette étude. Il ajoute néanmoins que « la reconnaissance vocale était en train de beaucoup s’améliorer depuis deux ou trois ans, bénéficiant du big data et de l’apprentissage profond pour entraîner son réseau neuronal et produire des résultats plus rapides et précis ». C’est pourquoi, les chercheurs ont décidé de tester cette technologie contre des humains.

Pour ce faire, ils ont utilisé le logiciel Deep Speech 2 de la firm chinoise Baidu pour le confronter à 32 volontaires âgés de 19 à 32 ans. « Ils ont grandi en écrivant des messages, donc nous avons opposé la reconnaissance vocale à des gens qui sont très bons pour cette tâche », précise James Landay. Sur une centaine de phrases, les participants devaient soit taper eux-mêmes une centaine de phrases soit la dicter à haute voix au smartphone. La moitié d’entre eux ont réalisé l’expérience en anglais, l’autre en mandarin.

Le professeur confie qu’il s’attendait à ce que le logiciel surpasse l’homme. Ce qui l’a surpris en revanche, c’est de voir à quel point. En moyenne, le premier écrit le texte 3 fois plus rapidement que le second avec un taux d’erreur plus faible de 20,4 % pour les textes en anglais. Pour ceux en mandarin, la vitesse d’exécution est 2,8 fois plus grande pour un taux d’erreur 63,4 fois plus petit.

Bien qu’ils aient utilisé exclusivement un logiciel de Baidu, les chercheurs sont persuadés que de telles performances peuvent être observées pour d’autres reconnaissances vocales.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !