Sans crier gare, la startup française Mistral AI vient de publier ce mercredi 10 avril un tout nouveau modèle de langage — Mixtral 8x22B. L’entreprise n’a toutefois apporté aucun commentaire pour accompagner cette sortie, ni sur son compte X (ex-Twitter) ni sur son site officiel — la dernière actualité remontant au 26 février 2024.
Là encore, Mistral a opté pour une diffusion via le protocole BitTorrent. Le tweet concernant Mixtral 8x22B contient en effet un lien magnet (pour celles et ceux qui ne sont pas coutumiers des échanges en P2P, cela aura surtout l’air d’un charabia) permettant de récupérer le modèle. Il faut un client BitTorrent pour le télécharger.
Un modèle de 262 Go à télécharger
Une mise en garde s’impose : prévoyez beaucoup de place. L’ensemble (en tout, il y a quatre fichiers associés au lien torrent) pèse 261,92 gigaoctets. Si vous comptez le récupérer, il faudra opter pour un support de stockage suffisamment volumineux pour le réceptionner — les disques durs les plus récents atteignent toutefois quelques téraoctets.
Le modèle est de fait trois fois plus massif que le précédent de Mistral, qui a été partagé courant décembre — Mixtral 8x7B, c’est son nom, pèse 87 Go. À l’époque, la startup avait également opté pour une mise à disposition via un échange pair à pair. Un communiqué avait été également mis en ligne, pour présenter ses principales spécificités.
Mistral avait décrit Mixtral comme un « mélange épars de modèles experts de haute qualité avec des poids ouverts ». Selon le banc d’essai choisi par la société française, Mixtral 8x7B dépassait GPT-3.5 d’OpenAI et LLaMA 2 70B de Meta (Facebook) dans plusieurs catégories. Ces deux modèles rivaux datent de novembre 2022 et juillet 2023.
Google et Facebook actualisent leurs modèles
Les caractéristiques techniques et les performances de ce Mixtral 8x22b ne sont pas données par Mistral et les comptes des fondateurs de la société, comme Arthur Mensch ou Guillaume Lample, sont restés jusqu’à présent silencieux. Le profil de ce modèle intrigue en tout cas, comme on peut le voir sur Reddit ou bien Y Combinator.
L’arrivée de Mixtral 8x22b intervient en tout cas dans un contexte assez animé du côté de l’intelligence artificielle générative. On a par exemple appris le 9 avril l’arrivée courant mai du modèle de langage LLaMA 3 chez Meta — lui aussi sera partagé selon les codes de l’open source. D’ailleurs, le géant américain tient une conférence aujourd’hui à Paris.
Du côté de Google, qui multiplie aussi ses efforts dans l’IA générative, il y a eu deux annonces notables : la disponibilité de Gemini 1.5 Pro dans plus de 180 pays, avec plusieurs avancées, et les débuts de CodeGemma, une version de Gemma (un modèle de langage) qui est adaptée à la génération de code informatique.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Marre des réseaux sociaux ? Rejoignez-nous sur WhatsApp !