Estimation avec marge de sécurité. La VRAM réelle dépend de l'architecture (GQA, MoE), du moteur d'inférence (vLLM) et de la quantification du cache KV. Cet outil donne un ordre de grandeur fiable pour dimensionner.
Comment lire ce résultat
Poids du modèle : c'est le poste principal. Un modèle de N milliards de paramètres pèse N × 2 Go en FP16, N Go en INT8, N ÷ 2 Go en INT4. La quantification INT4 divise donc par 4 la mémoire des poids, avec une perte de qualité généralement faible.
Cache KV : la mémoire qui stocke le contexte de chaque requête, calculée à partir de l'architecture réelle du modèle (2 × couches × têtes KV × dimension de tête × 2 octets par token). Elle croît avec la longueur de contexte et le nombre de requêtes simultanées, c'est souvent ce qui explose quand on sert beaucoup d'utilisateurs à la fois.
« Ma carte affiche 95 % d'occupation » : c'est normal avec vLLM. Le moteur pré-réserve ~90 % de la VRAM au démarrage (gpu_memory_utilization=0.9) et remplit tout l'espace libre au-delà des poids avec le pool de cache KV. Une A100 80 Go qui sert Mistral 24B en FP16 apparaît donc « saturée » dans nvidia-smi alors que le besoin réel est d'environ 55 Go : le reste est du cache pré-alloué pour absorber la concurrence.
C'est exactement ce dimensionnement que nous réalisons pour chaque déploiement souverain : choisir le bon modèle, la bonne quantification et le bon GPU pour votre charge réelle. Voir notre page Modèles LLM et le glossaire.
Un dimensionnement sur mesure ?
Nous choisissons le modèle et le GPU adaptés à votre charge réelle, et nous opérons l'infrastructure pour vous.
Parler à un ingénieur