GenAI local sur Mac Apple Silicon : perf

Faire tourner un modèle de langage directement sur un MacBook, sans cloud, avec MLX-LM et OpenCode : l'idée est séduisante pour la confidentialité. Mais que vaut réellement la performance, et jusqu'où cette approche tient-elle face à un déploiement serveur souverain ?

Pourquoi c'est devenu viable

Depuis la WWDC 2026, quatre facteurs convergent pour rendre l'IA générative locale crédible sur Mac, comme le détaille Guillem Riera dans son guide pratique : la stratégie d'Apple, la maturité du runtime MLX, la disponibilité de modèles quantifiés, et de meilleurs outils d'écosystème.

Le point clé : MLX-LM peut exposer une API locale compatible OpenAI. Concrètement, n'importe quel outil prévu pour ChatGPT (comme OpenCode) peut pointer vers http://localhost:8080 et fonctionner avec un modèle qui tourne… sur votre bureau.

Le vrai atout : la mémoire unifiée

Sur les puces Apple Silicon, le GPU et le CPU partagent le même pool de RAM. Il n'y a pas de « falaise VRAM » comme sur un PC avec carte graphique dédiée : si vous avez 24, 36 ou 64 Go de mémoire unifiée, le modèle peut y loger directement. C'est, selon plusieurs analyses, un véritable superpouvoir pour l'inférence locale.

Autre subtilité : l'inférence LLM est limitée par la bande passante mémoire, pas par la puissance de calcul. Un M4 Max plafonne autour de 546 Go/s — et c'est ce chiffre, plus que les TFLOPS, qui détermine le nombre de tokens par seconde.

Donc, quelle performance concrètement ?

Pour un usage individuel — coder, résumer, brainstormer — c'est tout à fait confortable. Un modèle de 14B tourne à 35–55 tokens/s sur un M4 Pro à 24 Go ; un 24–33B quantifié se situe autour de 30–45 tokens/s sur un M4 Max. Au-delà de ~15 tokens/s, la lecture suit sans frustration. MLX, framework natif d'Apple pour Metal, prend souvent l'avantage sur les alternatives (jusqu'à +20 à +87 % sur les petits modèles).

Là où le local atteint ses limites

Le local est excellent pour un utilisateur. Mais dès qu'il s'agit de servir une organisation, le modèle change :

• Concurrence : un Mac sert une requête à la fois efficacement. Servir 50, 200 ou 340 agents simultanément (comme dans nos déploiements en collectivité) exige des GPU serveur et un moteur d'inférence optimisé pour le débit multi-utilisateurs.
• Disponibilité : un poste de travail n'offre ni haute disponibilité, ni supervision, ni sauvegarde, ni SSO.
• Gouvernance : impossible d'appliquer une politique de sécurité, une conformité RGPD documentée ou une traçabilité à l'échelle sur des machines individuelles.

Autrement dit : l'IA locale sur Mac est un formidable terrain d'expérimentation et d'usage personnel. Pour une IA d'organisation, souveraine et à l'échelle, l'infrastructure serveur reste indispensable — c'est précisément ce que nous déployons et opérons.

GenAI local sur Mac Apple Silicon : quelle performance réelle ?

Pourquoi c'est devenu viable

Le vrai atout : la mémoire unifiée

Donc, quelle performance concrètement ?

Là où le local atteint ses limites

De l'expérimentation locale à la production souveraine

Sources