C’est encore une surprise de Microsoft : l’entreprise américaine annonce ce 21 mars la disponibilité d’un nouveau service capable de générer des images à la volée. Une nouvelle rubrique a été activée dans son moteur de recherche, Bing, dans laquelle il suffit d’écrire son instruction. Ensuite, l’intelligence artificielle générative se chargera d’imaginer plusieurs résultats.
Bing génère des images grâce à DALL-E d’OpenAI
L’outil fonctionne comme Midjourney. Il vous suffit de décrire l’image que vous voudriez voir pour que les algorithmes moulinent ensuite quatre propositions. Si l’une vous plaît, il vous suffit de cliquer dessus pour obtenir un rendu plus net et plus précis. Sinon, libre à vous de relancer une instruction, en essayant d’être plus fin dans votre demande.
Un exemple d’utilisation : nous avons demandé à Bing de générer un « un panda roux survolant les étoiles » (« A red panda flying over the stars »), en lui envoyant la commande en anglais. L’outil a ensuite retourné quatre résultats. En cliquant sur l’une d’elles, un rendu plus soigné a été proposé, avec des options pour le partager, le télécharger ou le commenter.
En revanche, impossible pour le moment d’envoyer des instructions autrement qu’en anglais. Nous avions tenté quelque chose autour de « Un pingouin en train de faire du surf devant la tour Eiffel », avant de recevoir un message d’erreur. En traduisant notre requête, l’IA s’est remise en route et a pu générer quelques propositions. Des langues supplémentaires seront ajoutées plus tard.
Ce nouvel outil est propulsé par DALL-E, un autre système d’IA conçu par OpenAI, une société américaine à qui l’on doit le chatbot ChatGPT ainsi que les différentes générations du modèle de langage GPT (GPT-4, GPT-3, etc.). OpenAI est devenu en quelques années un partenaire très proche de Microsoft ; celui-ci a d’ailleurs injecté des milliards de dollars dans la jeune pousse.
Microsoft dit s’appuyer sur une « une version avancée du modèle DALL-E » pour alimenter son service de génération d’image, baptisé Bing Image Creator. Il « sera entièrement intégré à l’expérience de Bing Chat », poursuit Microsoft, qui le décrit comme un « copilote créatif ». Cette description avait déjà été utilisée pour décrire l’arrivée de l’IA dans Microsoft Office.
Cette intégration est un pas de plus vers l’approche multimodale, qui désigne la capacité de manipuler tout aussi bien du texte, des images et d’autres formes de contenu pour en générer d’autres, de diverses natures. Dans ce cas, du texte permet de créer des images et des images peuvent être soumises à l’IA, qui en décrit ensuite le contenu. GPT-4 aura cette faculté.
Si l’association de Bing et de DALL-E rappelle Midjourney, l’intégration de DALL-E dans Bing s’avère plus accessible pour les internautes. Pas besoin de passer par un logiciel tiers, Discord, pour accéder aux algorithmes de l’IA générative. C’est l’un des points faibles de Midjourney. Dans le cas de Bing, il suffit d’aller sur sa page avec le navigateur web de son choix.
Des limites pour éviter les dérives
Microsoft n’ignore pas que ces outils peuvent faire l’objet de tentatives de détourner pour générer des contenus inappropriés ou illicites. Des loupés ont été remarqués avec ChatGPT, malgré les restrictions d’emploi. Des risques similaires existent dans la génération d’image — comme la mise en scène pornographique de célébrités, qui bat déjà son plein sur Internet.
Face à ces dérives, Bing Image Creator est censé avoir des limites claires pour n’autoriser qu’une expérience en faveur « d’une utilisation responsable » de l’IA. « Nous avons veillé à ce que les garanties d’OpenAI, ainsi que des protections supplémentaires, soient intégrées dans Image Creator ». Le détail de ces protections n’est pas donné.
L’entreprise américaine prévient toutefois que certaines instructions ne peuvent pas aboutir, parce qu’elles aboutiraient à des « images nuisibles ou dangereuses ». Dans ce cas, un message est affiché et un avertissement est envoyé à l’internaute. Le nom de certaines personnalités publiques, typiquement, provoque cette alerte. D’autres, en revanche, ne posent pas de difficulté apparente.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !