S’il est un domaine où le logiciel libre accuse un retard considérable sur les logiciels propriétaires, c’est bien celui de l’intelligence artificielle. C’est sans doute moins dû au fait que les mathématiciens et autres scientifiques de qualité seraient tous recrutés par les géants du Web, qu’au fait que l’intelligence artificielle repose de plus en plus sur l’analyse statistiques de quantités énormes de données (pensez Big Data, Deep Learning…), qui ne sont pas à disposition des petites startups et des développeurs amateurs.
Ces derniers sont donc contraints et forcés de reposer sur des technologies mises à disposition par les rares entreprises en capacité de traiter les données pour répondre aux différents besoins en IA. C’est le cas notamment de Microsoft, qui a réuni toutes ses API d’intelligence artificielle sur le site ProjectOxford.AI.
La firme de Redmond commence à avoir une collection sympathique d’API dédiées à l’intelligence artificielle avec trois grandes catégories d’outils dédiés à la vision, à la reconnaissance vocale et au traitement du langage.
Vision
- Des API dédiées au visage : détection d’un ou plusieurs visages sur une photographie (avec d’autres attributs comme la pose, ou l’évaluation de l’âge et du sexe de la personne photographiée) ; comparaison entre plusieurs photos pour dire s’il s’agit de la même personne ; recherche de toutes les photos où un visage est présent ; regroupement de visages proches ; identification d’une personne.
- Une API pour détecter les émotions. L’outil prend une image et peut renvoyer une évaluation du niveau d’émotions du visage, en détectant la colère, le mépris, le dégoût, la peur, le bonheur, la tristesse, et la surprise.
- Des API pour vidéos : stabiliser une vidéo (ce qui n’est pas réellement de l’IA) ; reconnaître et suivre les visages dans une vidéo ; détection d’un mouvement sur une vidéo.
- Vision informatique : Des API pour analyser des images (reconnaître une image pornographique, catégoriser des images, connaître la couleur dominante, reconnaissance d’objets…) ; reconnaître du texte présent sur une image et le retranscrire.
Reconnaissance vocale
- Des API de reconnaissance de la voix pour convertir la voix vers du texte en temps-réel ou depuis un fichier audio, ou obtenir des transcriptions enrichies avec des informations structurées sur l’intention du locuteur. Une API permet également de réaliser de la synthèse vocale.
- Un « Service Intelligent de Reconnaissance Personnalisée » (Custom Recognition Intelligent Service, ou CRIS), qui permet de faire sensiblement la même chose, mais avec des options de personnalisation liées à un modèle de langage particulier, des modèles acoustiques, etc. CRIS n’est accessible pour l’instant que sur invitation et s’adresse à des besoins spécifiques.
Traitement du langage
- Des API de vérification de l’orthographe qui peuvent détecter et corriger les erreurs de frappe courantes, même en fonction du contexte (par exemple « un coup de pied » et non « un coût de pied »). L’API a l’avantage d’être évolutive et donc d’apprendre de nouveaux mots et de nouvelles expressions lorsqu’elles deviennent populaires.
- LUIS (Language Understanding Intelligent Service), ou « Service intelligent de Compréhension du Langage », permet de créer des modèles de langage personnalisés et de construire des réponses adaptées à certaines requêtes types dans Cortana ou Bing (par exemple « mets mon réveil à 8h »).
- APIs Web Language Model pour automatiser des tâches de traitement du langage naturel. Elles peuvent calculer la probabilité qu’une séquence de mots apparaissent côte à côte, calculer la probabilité qu’un mot en suive un autre, renvoyer une liste de mots susceptibles de suivre une séquence (par exemple pour faciliter l’autocomplétion d’un champs de saisie), ou insérer automatiquement des espaces oubliés dans des phrases.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Marre des réseaux sociaux ? Rejoignez-nous sur WhatsApp !