Glossaire de l'IA : LLM, RAG, quantification, VRAM…

LLM (grand modèle de langage): Réseau de neurones entraîné sur d'immenses volumes de texte pour comprendre et générer du langage. C'est le « cerveau » d'une IA générative. Voir notre page Modèles LLM.
RAG (Retrieval-Augmented Generation): Technique qui connecte un LLM à vos documents : le système retrouve les passages pertinents puis les fournit au modèle, qui répond en citant ses sources. C'est ce qui rend une IA utile sur vos données métier.
Paramètres (ex. 24B): Le nombre de « poids » d'un modèle, en milliards (B pour billion). Plus il y en a, plus le modèle est capable, mais plus il consomme de mémoire GPU. Estimez-la avec notre calculateur de VRAM.
Quantification (FP16, INT8, INT4): Réduction de la précision des poids pour diminuer la mémoire nécessaire. Passer de FP16 (16 bits) à INT4 (4 bits) divise par 4 la mémoire des poids, avec une perte de qualité généralement faible.
VRAM (mémoire GPU): La mémoire de la carte graphique où réside le modèle pendant l'inférence. Elle doit contenir les poids + le cache KV + une marge. Sur Apple Silicon, on parle de mémoire unifiée.
Cache KV: Mémoire qui stocke le contexte de chaque requête en cours. Elle croît avec la longueur de contexte et le nombre de requêtes simultanées, souvent le poste qui explose quand on sert beaucoup d'utilisateurs.
Open source vs open weight: Un modèle open weight publie ses poids (utilisables et déployables librement) ; un modèle open source va plus loin en ouvrant aussi le code et parfois les données. Les deux permettent la souveraineté et la réversibilité.
Embeddings (vecteurs): Représentation numérique du sens d'un texte. Ils permettent la recherche sémantique : retrouver les documents proches d'une question, même sans mots-clés identiques. Brique centrale du RAG.
Fenêtre de contexte: La quantité de texte (en tokens) qu'un modèle peut prendre en compte d'un coup. Une fenêtre de 128k tokens permet d'analyser de longs documents entiers.
Hallucination: Réponse plausible mais fausse générée par un LLM. Le RAG et les réponses sourcées réduisent fortement ce risque en ancrant les réponses dans vos documents réels.
Fine-tuning: Ajustement d'un modèle pré-entraîné sur des données spécifiques. Souvent, le RAG suffit et évite le coût d'un fine-tuning ; celui-ci reste utile pour des styles ou tâches très particuliers.
Souveraineté numérique: Garder la maîtrise de ses données, outils et choix technologiques, sans dépendance à un acteur étranger. Appliquée à l'IA, elle repose sur l'hébergement UE et l'open source. Voir Souveraineté.
CLOUD Act: Loi américaine permettant aux autorités US d'exiger l'accès à des données détenues par des entreprises américaines, où qu'elles soient. C'est le risque juridique majeur des IA hébergées par des éditeurs US.
SSO (authentification unique): Single Sign-On : vos agents se connectent à l'IA avec leur compte existant (annuaire de l'organisation), sans nouveau mot de passe. Sécurité et confort.
Inférence: L'exécution d'un modèle déjà entraîné pour produire une réponse. C'est ce qui consomme le GPU au quotidien, mesuré en tokens par seconde.

De la théorie à votre IA souveraine

Nous traduisons ces concepts en une solution concrète, déployée et opérée pour vous.

Demander une démonstration