Qu'est-ce qu'un LLM ?
Un LLM est un modèle entraîné sur d'immenses volumes de texte pour prédire et générer du langage. C'est lui qui rédige, résume, traduit, répond aux questions. Sa « taille » se mesure en paramètres (ex. 24 milliards, noté 24B) : plus il en a, plus il est capable, mais plus il consomme de mémoire GPU et d'énergie.
L'enjeu n'est pas d'avoir le plus gros modèle, mais le modèle le mieux dimensionné pour l'usage, et de le maîtriser de bout en bout.
Open source ≠ open weight : la distinction qui compte
Open weight
Les poids du modèle (le résultat de l'entraînement) sont publiés et téléchargeables. Vous pouvez l'exécuter sur vos serveurs, l'adapter, le faire fonctionner hors ligne.
C'est le minimum pour la souveraineté : le modèle vit chez vous. Exemples : Mistral, Llama, Qwen, Gemma.
Open source (au sens strict)
Va plus loin : en plus des poids, le code d'entraînement, les données et la licence permettent de reproduire, auditer et modifier entièrement le modèle.
Transparence maximale. La plupart des modèles « ouverts » sont en réalité open weight ; le vrai open source complet reste plus rare.
Pourquoi ça vous concerne : un modèle propriétaire fermé (ChatGPT, Gemini, Claude via API) ne vous donne ni les poids ni le contrôle : vos données sortent et vous dépendez du fournisseur. Un modèle open weight ou open source s'exécute sur votre infrastructure : c'est la base de l'IA souveraine.
Une stack agnostique du modèle, qui scale avec le GPU
Notre architecture ne dépend d'aucun modèle en particulier. Le LLM est un composant interchangeable : nous pouvons déployer celui qui correspond à votre besoin, à votre langue et à votre budget, et le remplacer plus tard sans reconstruire la plateforme.
Interchangeable
Interface, RAG, monitoring restent identiques ; seul le modèle change. Zéro dépendance à un éditeur.
Scale avec le GPU
La taille du modèle qu'on peut faire tourner dépend de la mémoire GPU (VRAM). Plus de ressources = modèle plus grand ou plus d'utilisateurs simultanés.
Dimensionné au besoin
On choisit le couple modèle / GPU au plus juste : ni surdimensionnement coûteux, ni sous-capacité.
Exemple concret : un modèle 24B tient sur un seul GPU A100 80 Go et sert plus de 200 utilisateurs simultanés. Besoin d'un modèle plus grand ou de plus de débit ? On ajoute du GPU. Le principe est le même : voir notre stack technique.
Les LLM les plus souverains
Sélection de modèles ouverts (open weight) adaptés à un déploiement souverain, avec un focus sur le français et l'Europe. Le paysage évolue vite : cette liste est indicative.
| Modèle | Éditeur | Atout souverain |
|---|---|---|
| Mistral Small 4 | Mistral AI 🇫🇷 | Éditeur français, excellent en français, open weight, dimensionné pour tourner sur un GPU unique. Le meilleur rapport souveraineté / performance pour l'Europe. |
| Mistral Small 3.2 24B | Mistral AI 🇫🇷 | Version en production chez nos clients. Robuste, éprouvé, francophone. |
| Llama 3.x | Meta 🇺🇸 | Open weight, très large écosystème. Éditeur non européen, mais exécution 100 % locale possible. |
| Qwen 3 | Alibaba 🇨🇳 | Multilingue performant, open weight. À évaluer selon la sensibilité du contexte. |
| Gemma | Google 🇺🇸 | Modèles compacts efficaces, open weight, exécutables localement. |
Souveraineté maximale = éditeur européen + exécution locale. Mistral coche les deux cases, ce qui en fait notre choix par défaut pour les acteurs publics français.
Quel modèle pour votre organisation ?
Nous vous aidons à choisir le LLM le mieux adapté à votre langue, vos cas d'usage et votre budget GPU, puis nous le déployons sur une infrastructure souveraine.