Part US 70→30 % · volume≠qualité · matrice 8 scénarios · feuille de route Q3 · architecture en 6 étapes
En juin 2026, trois signaux convergent : Claude Fable 5 retiré pour contrôle des exportations, OpenAI et Anthropic évoquent une IPO, et les modèles chinois dépassent 60 % des tokens sur OpenRouter. Si vous choisissez encore vos LLM avec le cadre de 2025, vous sous-estimez le basculement. Cet article s'appuie sur le trafic temps réel OpenRouter, l'Artificial Analysis Intelligence Index et SWE-bench Pro pour livrer le double classement (entreprises et modèles), l'interprétation 70 %→30 % pour les États-Unis, la séparation volume/qualité, une matrice en 8 scénarios, la feuille de route Q3, cinq tendances macro et un runbook en six étapes pour une architecture indépendante du modèle — avec le rôle du Mac Mini M4 en location mensuelle pour les agents 7×24.
OpenRouter agrège le trafic API réel de millions de développeurs — pas les benchmarks marketing, mais le vote du code en production. Fin juin 2026, l'équilibre a basculé : la compétition porte sur la fiabilité des agents, tandis que les modèles open source chinois captent 40 points de parts américaines à prix plancher.
Confondre classement et qualité : le volume de tokens reflète un choix économique, pas le score MMLU ; distinguez « champion du trafic » et « plafond qualité ».
Ignorer le vote global : développeurs US, UE et Inde choisissent DeepSeek, Xiaomi, MiniMax pour le prix, la vitesse, la suffisance — pas la nationalité.
Verrouillage sur un seul modèle : le Q3 amène GPT-6, Opus 5, Gemini 4, DeepSeek V5 — le leader d'aujourd'hui peut changer en trois mois.
Sous-estimer le signal Fable 5 : note maximale puis retrait export — la frontier US mène techniquement, l'accessibilité devient variable.
Changer d'API sans changer d'hôte : le routage OpenRouter est trivial ; daemons 7×24, Keychain, Xcode restent liés à macOS — voir le guide de routage multi-modèles.
Données à fin juin 2026, source OpenRouter Rankings. Ce classement révèle quel modèle les équipes font réellement tourner en production.
| Rang | Entreprise | Origine | Tokens/semaine | Part |
|---|---|---|---|---|
| 1 | DeepSeek | Chine | 5,13T | 17,6 % |
| 2 | Anthropic | États-Unis | 4,34T | 14,8 % |
| 3 | États-Unis | 3,66T | 12,5 % | |
| 4 | OpenAI | États-Unis | 2,46T | 8,4 % |
| 5 | Xiaomi | Chine | 2,42T | 8,3 % |
| 6 | MiniMax | Chine | 2,37T | 8,1 % |
| 7 | Tencent | Chine | 2,36T | 8,1 % |
| 8 | Alibaba Qwen | Chine | 1,26T | 4,3 % |
Les éditeurs chinois listés dans le top 10 totalisent environ 46 % ; avec Moonshot et autres, la part chinoise dépasse 60 %.
| Rang | Modèle | Éditeur | Tokens/jour |
|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 619B |
| 2 | Hy3 Preview | Tencent | 451B |
| 3 | MiniMax M3 | MiniMax | 447B |
| 4 | MiMo-V2.5 | Xiaomi | 327B |
| 5 | DeepSeek V4 Pro | DeepSeek | 300B |
| 6 | Claude Opus 4.7 | Anthropic | 263B |
| 7 | Claude Opus 4.8 | Anthropic | ~200B |
| 8 | Claude Sonnet 4.6 | Anthropic | 178B |
| 9 | Gemini 3 Flash Preview | 156B | |
| 10 | Kimi K2.6 | Moonshot AI | ~150B |
Témoignage d'un développeur de San Diego : « Avec Claude, le code coûte environ 10 $ de l'heure. Avec DeepSeek, moins de 50 cents. » — Ce n'est pas une histoire de qualité, c'est une histoire d'économie.
Bloomberg, OpenRouter et Exponential View confirment le basculement : en juin 2025, Google + OpenAI + Anthropic totalisaient ~70 % des tokens ; en juin 2026, ~30 %. Les 40 points perdus vont aux modèles chinois — portés par des développeurs du monde entier.
Selon l'Artificial Analysis Intelligence Index (fin mai 2026) :
| Modèle | Index qualité | SWE-bench Pro | Remarque |
|---|---|---|---|
| Claude Opus 4.8 | 61,4 (#1) | 69,2 % | Long contexte et agents |
| GPT-5.5 | 59–60 | 63,1 % | Écosystème et tool calls |
| Gemini 3.1 Pro | 57 | — | Raisonnement complexe |
| Qwen 3.7 Max | 57 | — | Flagship chinois closed source |
| Claude Sonnet 4.6 | — | 80,8 % (Verified) | Rédaction et instructions |
Test interne sur 20 tâches : Opus 4.8 en remporte 16, GPT-5.5 cinq, Gemini 3.1 Pro quatre ; sur le long contexte, Opus domine.
Claude Fable 5 avait obtenu la note maximale (100/100), SWE-bench Verified ~95 %, puis a été retiré mondialement mi-juin 2026 pour contrôle des exportations — statut incertain. La frontier US mène en capacité pure ; l'accès devient un risque.
| Scénario | Modèle recommandé | Justification |
|---|---|---|
| Code complexe / agent | Claude Opus 4.8 | Index #1, long contexte |
| Programmation quotidienne | DeepSeek V4 Flash / MiMo-V2.5 | Rapport qualité-prix, faible latence |
| API ultra-compétitive | MiniMax M3 | 0,60 $/M, open weight, self-host |
| Long contexte | Kimi K2.6 (1M context) | Fenêtre étendue, prix raisonnable |
| Écosystème Google | Gemini 3.5 Flash | Intégration Workspace native |
| Recherche web temps réel | Grok 4.3 | Flux X/Twitter en direct |
| Déploiement local | GLM 5.2 / Kimi K2.6 | Meilleurs open weights |
| Génération d'images | ChatGPT Images 2.0 | Rendu texte leader |
| Modèle | Éditeur | Fenêtre | Point clé |
|---|---|---|---|
| GPT-6 | OpenAI | août–sept. 2026 | 1,5M contexte, agents renforcés |
| Claude Opus 5 | Anthropic | ~sept. 2026 | Agents longue durée |
| Gemini 4 | Q3 2026 | Multimodal, vidéo/audio | |
| DeepSeek V5 | DeepSeek | Q3 2026 | Open weight, >1T paramètres |
| GLM 5.2 | Z.ai | Publié | Top open weight, code |
| Grok 4.3+ | xAI | Q3 2026 | 1M contexte, web live |
Plusieurs lancements se concentrent dans une fenêtre de six semaines mi-août à fin septembre — la couronne benchmark changera plus vite que les cycles médias.
Niveaux de tâche : L1 brouillon (Flash/MiMo), L2 code courant (Sonnet/DeepSeek), L3 agent long (Opus 4.8/Kimi), L4 multimodal (Gemini/Grok).
Endpoint OpenRouter unique : même Base URL, champ model différent ; clés en Keychain ou secret CI.
Plafonds mensuels : tier Opus $25/M sortie avec circuit breaker ; tier Flash concurrency plus large.
Régression prompts fixes : chaque semaine, même sous-ensemble d'issues agent ; mesurer échecs tool call, pas seulement TTFT.
Chaîne de dégradation : Opus 4.8 → Sonnet 4.6 → DeepSeek V4 Flash → file manuelle.
Hôte 7×24 : routage en cloud ; si Claude Code, Xcode, OpenClaw, déployer les daemons sur Mac Mini loué, valider les diffs en local.
La leçon n'est pas « la Chine gagne », mais la marge du layer modèle s'effondre. DeepSeek a montré début 2025 qu'il ne faut pas de compute frontier pour un modèle frontier — Xiaomi, Tencent, MiniMax, Moonshot ont suivi et ont écrasé les prix de base.
Stratégies US divergentes : OpenAI mise sur l'écosystème ; Anthropic défend la qualité (Opus agent) ; Google sur vitesse et multimodal (Gemini Flash, meilleur closed source qualité-prix). La zone « pas mauvais mais cher » disparaît.
Fermer un MacBook interrompt les agents nocturnes ; un VPS Linux manque de Metal, Keychain et Xcode — coût d'intégration souvent doublé. Les scripts API purs peuvent rester n'importe où ; avec Claude Code + OpenClaw + CI iOS, la location cloud Mac Mini M4 VpsMesh regroupe uptime et chemins macOS natifs en OpEx mensuel — moins cher que réinstaller trois CLI à chaque reshuffle de classement. Tarifs : tarifs Mac Mini M4, déploiement : centre d'aide.
Par tokens quotidiens : DeepSeek V4 Flash (619B), puis Hy3 Preview (451B) et MiniMax M3 (447B). Par entreprise hebdomadaire : DeepSeek à 17,6 %. Classement complet : openrouter.ai/rankings.
Selon la tâche. Volume : modèles chinois via écart 8× ; qualité : Claude Opus 4.8 (index 61,4) pour les agents les plus difficiles. Stratégie : closed frontier pour 5 %, tier Flash pour 95 %. Guide routage : OpenClaw multi-modèles.
API OpenRouter seule : non. Avec Claude Code, Xcode ou daemons OpenClaw, la location mensuelle Mac Mini M4 est plus stable. Testez un mois — tarifs : tarifs Mac Mini M4, commande : page de commande.