Modèles LLM 29 juin 2026·6 min de lecture

Mistral Small 4 vs Small 3.2 24B : que change la nouvelle génération ?

Mistral Small 3.2 (24B) est aujourd'hui notre modèle de production en collectivité. Small 4 vient d'arriver, plus polyvalent et plus rapide. Faut-il migrer ? Comparatif chiffré, sources à l'appui.

Small 4 : un seul modèle qui unifie trois familles

Magistral raisonnement Pixtral vision / multimodal Devstral coding agentique Mistral Small 4 24B · effort de raisonnement réglable
Small 4 consolide raisonnement, vision et coding dans un seul modèle 24B. Source : VentureBeat.

Le contexte : deux modèles, une même taille

Les deux modèles partagent le même socle : 24 milliards de paramètres et une fenêtre de contexte de 128k tokens. La différence n'est donc pas dans la taille, mais dans les capacités et l'efficacité.

Mistral Small 3.2 (juin 2025) est une mise à jour ciblée de la série 3 : meilleur suivi d'instructions, moins de répétitions, meilleur appel de fonctions. Mistral Small 4 (mars 2026) va plus loin : il unifie le raisonnement (Magistral), la vision (Pixtral) et le coding agentique (Devstral) dans un seul modèle, avec un effort de raisonnement configurable.

Progression des benchmarks (série Small)

Score en % — plus haut = meilleur

0 50 100 % HumanEval+ (coding) 88,99 92,90 MBPP Pass@5 (coding) 74,63 78,33 MMLU Pro (connaissances) Small 3.2 : solide Small 4 : ≈ Medium 3.1 Small 3.1 Small 3.2 Small 4
Small 3.2 a amélioré le coding vs 3.1 ; Small 4 hisse le niveau de connaissances près de Mistral Medium 3.1. Sources : VentureBeat, MindStudio, OpenRouter.

Tableau comparatif

CritèreSmall 3.2 (24B)Small 4 (24B)
Paramètres24B24B
Contexte128k128k
Vision / multimodalLimitéOui (Pixtral intégré)
RaisonnementStandardConfigurable (Magistral)
Coding agentiqueBonRenforcé (Devstral)
Débit d'inférenceRéférence−40 % de temps, ×3 req/s vs Small 3
Niveau MMLU ProSolideProche de Medium 3.1 / Large 3

Ce que ça change pour une IA souveraine

Deux gains comptent vraiment en production :

Le débit : Mistral annonce −40 % de temps de complétion et 3× plus de requêtes par seconde par rapport à Small 3. Sur une même infrastructure GPU, cela signifie servir davantage d'agents simultanément — donc un meilleur coût par utilisateur.
La polyvalence : un seul modèle pour le texte, l'image et le code simplifie l'exploitation (un modèle à héberger, pas trois) et ouvre de nouveaux cas d'usage documentaires (analyse de plans, de scans, de tableaux).

Notre stack étant agnostique du modèle, la migration de Small 3.2 vers Small 4 se fait sans reconstruire l'infrastructure : mêmes 24B, même fenêtre de contexte, même famille. Nous évaluons Small 4 sur les cas d'usage réels de nos clients avant tout déploiement — car un benchmark public ne remplace jamais un test sur vos propres documents.

Notre recommandation

Small 3.2 reste un excellent choix, éprouvé et stable, pour un assistant documentaire texte. Small 4 devient pertinent dès que vous avez besoin de vision (documents scannés, plans, images), de raisonnement plus poussé, ou de plus de débit à infrastructure constante. Dans les deux cas, vous restez sur un modèle français, open-weight et souverain.

Quel modèle pour vos cas d'usage ?

Nous évaluons Small 3.2 et Small 4 sur vos propres documents, et déployons celui qui vous convient — sans vous enfermer.

Demander une évaluation