GPT-3, ChatGPT et, plus récemment, GPT-4… Depuis 2022, le nom d’OpenAI résonne dans toutes les têtes des passionnés du secteur. Pourtant, l’entreprise de San Francisco n’est pas la seule à développer de grands modèles de langage (LLM). Fondée en 2016, Hugging Face tend à rivaliser avec les géants du secteur. Sa particularité : proposer des modèles ouverts, accessibles à tous.
HuggingFace n’est que l’un des concurrents du chatbot développé par OpenAI : il existe de nombreuses alternatives gratuites à ChatGPT en français.
HuggingChat, c’est quoi ?
Lancé en grande pompe au cours du mois d’avril 2023, HuggingChat est un assistant virtuel similaire à ChatGPT. Il peut générer du texte dans plusieurs styles, créer du code, traduire du contenu en analysant son contexte ou vous assister dans les tâches les plus complexes.
Son interface est simple, similaire à la version publique de ChatGPT. Par défaut, les conversations avec l’IA sont partagées avec les développeurs. Une option qu’il est possible de refuser en se rendant dans les paramètres. Comme tout modèle d’intelligence artificielle, HuggingChat est susceptible d’halluciner en inventant de fausses informations (ou des citations).
Le bot est également disponible via l’API de Hugging Face. « Certains ont dit que les API fermées étaient en train de gagner… mais nous n’abandonnerons jamais le combat pour l’IA open source », s’est félicité Julien Chaumond, l’un des co-fondateurs de l’entreprise sur LinkedIn.
Comment fonctionne HuggingChat ?
Pour fonctionner, HuggingChat s’appuie actuellement sur le modèle oasst-sft-6-llama-30b-xor d’OpenAssistant (oui, c’est un nom compliqué). Dans le but de démocratiser la recherche sur l’IA au plus grand nombre, les modèles utilisés par le bot sont totalement open source. Le projet OpenAssistant est développé et maintenu par LAION, une association allemande à but non lucratif dont l’objectif affiché est de « mettre à la disposition du grand public des modèles d’apprentissage automatique à grande échelle, des ensembles de données et le code correspondant. »
LAION œuvre également pour réduire l’empreinte énergétique des modèles d’IA pour faire face aux enjeux du réchauffement climatique sans pour autant se passer de la technologie. L’organisation est entièrement financée par des dons et des subventions liées à la recherche publique.
Techniquement, OpenAssistant a été entraîné sur des données textuelles de haute qualité, annotées par des humains pour une meilleure compréhension du contexte. Une étude des préférences a révélé que « les réponses d’OpenAssistant sont comparablement préférées à GPT-3.5-turbo (ChatGPT) avec un taux de 48,3 % contre 51,7 % respectivement », notent les développeurs du modèle dans un article scientifique du 14 avril.
Qui se cache derrière HuggingChat ?
HuggingChat est une initiative franco-américaine. C’est en réalité la startup Hugging Face, une véritable communauté autour de l’IA. La plateforme fournit des outils complets pour développer et utiliser des modèles. Elle héberge actuellement, au 4 mai 2023, plus de 120 000 modèles, 20 000 ensembles de données et 50 000 applications de démonstration nommées Spaces. Une véritable mine d’or pour les chercheurs.
« Aucune entreprise, y compris les Tech Titans, ne sera en mesure de ‘résoudre l’IA’ à elle seule – le seul moyen d’y parvenir est de partager les connaissances et les ressources dans le cadre d’une approche centrée sur la communauté », assure la start-up sur son dépôt GitHub.
Bien que les trois fondateurs, Clément Delangue, Julien Chaumond et Thomas Wolf, soient français, Hugging Face est basée aux États-Unis. Une nouvelle illustration du désormais bien connu phénomène du « brain drain. »
Pourquoi l’arrivée d’une IA open source est une bonne nouvelle ?
Plus qu’un simple délire de nerd, l’open source constitue une nécessité pour la communauté scientifique. « Je crois que nous avons besoin d’alternatives open-source à ChatGPT pour plus de transparence, d’inclusivité, de responsabilité et de distribution du pouvoir », explique de son côté Clement Delangue sur Twitter.
Pour les chercheurs, utiliser une IA plus transparente permet d’obtenir des résultats plus précis dans le cadre d’une étude. Afin de comprendre le comportement du système dans certaines situations, il est bon de connaître le code et les données d’entraînement du modèle (pendant sa phase d’apprentissage).
Dans le cas de ChatGPT, des chercheurs de l’Université de Californie à Berkeley (Kent Chang, Mackenzie Cramer, Sandeep Soni, et David Bamman) ont démontré la prédominance de certains genres littéraires au sein de la « mémoire » de l’IA. Un biais négatif susceptible notamment d’affecter les résultats d’une étude menée avec ces outils d’intelligences artificielles.
Enfin l’opacité relative des modèles propriétaires fait craindre le risque d’une fuite d’informations confidentielles (secret industriel notamment) dans le cas d’une utilisation professionnelle. Sans parler des risques pour la vie privée lors d’un usage personnel.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !