Le nouveau modèle de Perplexity est encore plus rapide que Mistral Le Chat

Le Chat, le service Mistral AI, est récemment arrivé dans une nouvelle version, avec une vitesse d’inférence record. Moins d’une semaine après, Perplexity riposte avec le lancement d’une nouvelle version optimisée de son modèle Sonar, qui va encore plus vite.

Perplexity n’est pas vraiment un rival d’OpenAI, de Google ou de Mistral, puisqu’il ne fabrique pas lui-même ses propres modèles de langage. La startup américaine, qui se présente comme un moteur de recherche de nouvelle génération, a mis au point un outil qui convertit vos recherches en des prompts sophistiqués, collecte de nombreuses sources, puis les envoie à un LLM concurrent, comme GPT-4o (OpenAI), Claude-3.5 (Anthropic) ou R1 (DeepSeek) pour générer une réponse. Sa mission est de simplifier la recherche, pas de générer du texte.

Même si Perplexity ne crée pas de LLM, l’entreprise a mis au point Sonar, un modèle entraîné en interne pour donner des réponses plus rapidement. Sonar est basé sur le modèle open source de Meta, Llama, avec un post-entraînement pour fournir des réponses complètes et simples à comprendre. Sa dernière version, annoncée le 11 février 2025, bat un record de vitesse pour un modèle de langage.

Le nouveau Sonar flashé à 1 200 tokens par seconde

La nouvelle version de Sonar se base sur Llama 3.3 avec 70 milliards de paramètres, un des derniers modèles de Meta. Sonar n’est pas un modèle conçu pour des tâches compliquées, puisqu’il rivalise plutôt avec GPT-4o-mini et Claude 3.5 Haiku, de petits modèles à bas coût conçus pour des réponses rapides.

Un énième petit modèle à but précis sans intérêt ? Attendez de découvrir sa rapidité. Le nouveau Sonar de Perplexity génère des réponses à la vitesse folle de 1 200 tokens par seconde (un token correspond globalement à un mot généré), un nouveau record dans l’industrie. Une semaine plus tôt, le français Mistral avait annoncé un nouveau modèle à 1 100 tokens par seconde, déjà 10 fois plus rapide que ChatGPT. Cette vitesse permet à Perplexity, dans sa version standard, de générer des réponses instantanées, à la manière de Google. Il n’y a plus de temps d’attente pour générer une réponse.

Perplexity's Sonar—built on Llama 3.3 70b—outperforms GPT-4o-mini and Claude 3.5 Haiku while matching or surpassing top models like GPT-4o and Claude 3.5 Sonnet in user satisfaction.

At 1200 tokens/second, Sonar is optimized for answer quality and speed. pic.twitter.com/cNhb39PEVV
— Perplexity (@perplexity_ai) February 11, 2025

Perplexity se compare à de nombreux modèles concurrents, qui plafonnent généralement autour des 100 tokens par seconde, mais oublie volontairement Mistral. C’est dommage, puisqu’il s’agit en réalité de son principal concurrent sur la vitesse.

Sur son site, Cerebras se dit très fier de l'exploit réalisé par Mistral. — Avec 1 100 tokens par seconde, Mistral a détenu le record pendant quelques jours. Perplexity a fait mieux. // Source : Cerebras

Perplexity et Mistral ont un point commun : des puces différentes

Comment expliquer cette soudaine course à la rapidité, avec une multiplication par 10 des précédents résultats ?

Perplexity et Mistral ont un fournisseur commun : Cerebras, qui fabrique des puces avec une architecture différente de celles de Nvidia ou AMD. Sonar et Mistral-Large-2, qui tournent tous les deux sur des serveurs Cerebras, profitent d’une architecture spécialement pensée pour l’intelligence artificielle, qui va beaucoup plus vite qu’ailleurs. Le problème est que les capacités de Cerebras sont limitées : l’entreprise n’a pas (encore) les moyens de faire tourner un service utilisé par des centaines de millions de personnes. Le nouveau Sonar n’est d’ailleurs pas le modèle par défaut de Perplexity, sans doute pour cette raison.

En 2025, la rapidité pourrait devenir un des grands axes de développement des LLM. La génération mot par mot va-t-elle devenir invisible ? Perplexity et Mistral sont les premiers à s’y mettre.