28,9T hebdomadaires · bascule Chine–USA · matrice DeepSeek · token vs dollar · suivi en six étapes
Entre les tableaux MMLU et l'expérience en production, la question reste la même : qui est réellement appelé en 2026 ? Les OpenRouter Rankings et leur débit hebdomadaire de tokens offrent une réponse plus honnête que tout benchmark : la semaine close le 24 mai 2026, le volume mondial atteint 28,9 billions de tokens (cinquième hausse consécutive), les modèles chinois totalisent 9,223T et devancent les États-Unis quatre semaines de suite, tandis que la matrice DeepSeek cumule 5,74T en tête des éditeurs. Ce guide s'adresse aux développeurs et responsables techniques qui routent les modèles et maîtrisent les coûts : sources de données, Top 10 de la semaine, part tokens vs revenus en dollars, inversion a16z/benchmarks, un runbook de suivi en six étapes, et pourquoi la location mensuelle Mac Mini M4 reste l'hôte le plus fiable pour les agents permanents.
OpenRouter est la plus grande plateforme neutre d'agrégation d'API IA : 300+ modèles, 60+ fournisseurs, plus de 8 millions d'utilisateurs et environ 100 billions de tokens par mois. Le classement public (openrouter.ai/rankings) mesure le débit glissant sur 7 jours — entrée et sortie incluses. C'est le thermomètre du vote monétaire des développeurs, pas le radar des présentations fournisseurs.
Il y a un an, OpenRouter traitait environ 2,4 billions de tokens par semaine ; une semaine en 2026 atteint 28,9 billions — croissance d'un facteur 12. Le volume de tokens est passé d'indicateur technique à baromètre stratégique : les investisseurs y lisent la monétisation de l'IA, les équipes techniques y choisissent un routage multi-fournisseurs sans pari unique.
Les benchmarks se optimisent : Un score MMLU ou HumanEval élevé ne garantit ni des appels d'outils XML/JSON stables, ni trente minutes de codage autonome sans agent perdu.
Le volume reflète la volonté de déployer : Payer et consommer de la puissance de calcul en continu signale que le modèle a passé l'épreuve de stabilité, latence et rapport qualité-prix en production.
La granularité hebdomadaire capture les tendances : DeepSeek V4-Flash a progressé de +66 % en une semaine — signal lissé dans un classement mensuel.
Les modèles gratuits déforment la perception : Owl Alpha et autres modèles à prix nul gonflent le trafic expérimental ; lisez conjointement part en tokens et part en revenus.
Le code est la première catégorie d'usage : Le rapport OpenRouter + a16z (100 billions de tokens de métadonnées anonymes) montre une part coding passée de 11 % début 2025 à plus de 50 % — les modèles en tête optimisent pour agents et développement.
Ce n'est pas le plus intelligent qui compte, mais le plus appelé — les chiffres de facturation sont plus honnêtes que tout classement d'évaluation.
Tableau synthétique des données publiques OpenRouter (période : rolling 7 jours, arrêt au 24 mai 2026). Recoupement avec la presse (25 mai 2026), la liste officielle OpenRouter et analyses tierces.
| Indicateur | Valeur | Variation |
|---|---|---|
| Volume hebdomadaire mondial | 28,9 billions de tokens | +7,4 % (5e hausse consécutive) |
| Modèles chinois | 9,223 billions de tokens | +19,89 % |
| Modèles américains | 4,93 billions de tokens | +16,27 % |
| Chine vs USA | Chine devant quatre semaines consécutives | Premier rang mondial |
| Date | Part de trafic Chine |
|---|---|
| Début 2025 | < 2 % |
| Février 2026 | Première fois devant les USA |
| Mai 2026 | ~45 %+, quatre semaines devant les USA |
Méthodologie : OpenRouter classe par origine éditeur ; DeepSeek, Tencent, MiniMax, StepFun côté Chine ; Anthropic, Google, xAI côté USA.
Classement 18–24 mai 2026 par volume hebdomadaire de tokens. V4-Flash, V4-Pro et V3.2 de DeepSeek figurent dans le top neuf ; la série totalise 5,74T (+25,9 % sem./sem.) et mène les éditeurs deux semaines devant Anthropic et Google. Kimi K2.6 (6e la semaine précédente) sort du top dix.
| Rang | Modèle | Éditeur | Tokens/semaine | Var. | Profil |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek | 3,43T | +66 % | Agent, prix minimal |
| 2 | Tencent Hy3 Preview | Tencent | 3,07T | +16 % | Forte croissance post-gratuité |
| 3 | Claude Sonnet 4.6 | Anthropic | 1,35T | — | 1M contexte, code entreprise |
| 4 | DeepSeek-V3.2 | DeepSeek | 1,31T | — | Long tail bon marché, RP actif |
| 5 | Owl Alpha | OpenRouter | 1,15T | +29 % | Gratuit, agent, 1M contexte |
| 6 | Gemini 3 Flash Preview | 1,06T | — | Multimodal, académique/médical | |
| 7 | DeepSeek-V4-Pro | DeepSeek | 1,00T | — | Flagship matrice (série 5,74T) |
| 8 | MiniMax M2.7 | MiniMax | 806B | — | Long contexte, bon rapport |
| 9 | Grok 4.1 Fast | xAI | 721B | — | 2M contexte, juridique |
| 10 | Step 3.5 Flash | StepFun | 673B | — | Rapide, batch |
Lire uniquement les tokens occulte l'écart de tarification. Anthropic illustre le paradoxe premium : part tokens ~12 % (25 % il y a un an, en baisse), part revenus ~46 % — l'entreprise paie encore Claude à prix fort, mais la domination du trafic s'est déplacée. Claude Opus 4.6 génère ~25 M$ de revenus mensuels pour un volume token inférieur de plusieurs ordres de grandeur à DeepSeek.
| Segment | Exemple | Profil tokens | Profil revenus |
|---|---|---|---|
| Haute valeur · faible trafic | Claude Opus | Part en baisse | Raisonnement complexe, forte capacité de paiement |
| Rapport qualité-prix · trafic moyen | Google Gemini Flash | Croissance stable | Multimodal, recherche |
| Ultra-bas prix · fort trafic | DeepSeek / MiniMax / StepFun | Expansion rapide | Agents, code, batch |
Le rapport OpenRouter + a16z « 2025 AI Usage » révèle une contre-intuition : score benchmark et part de marché sont souvent inversement corrélés. Les développeurs optimisent le coût d'inférence, pas la capacité limite ; les pipelines agent dépendent de stabilité et latence API. Cela explique la domination DeepSeek et Hy3 alors que certains champions de benchmarks restent hors top dix.
Le classement se met à jour chaque semaine — la politique de routage doit suivre. Ce runbook s'applique à Claude Code, Cursor, OpenClaw ou gateway maison et transforme les insights en changements de configuration.
Ouvrir Rankings chaque lundi : openrouter.ai/rankings — volume global, parts Chine/USA, delta top 10 ; archiver pour revue d'équipe.
Séparer tokens et dollars : Lire part revenus à côté de part tokens ; ne pas confondre trafic gratuit (Owl Alpha) avec choix de production.
Mapper par scénario : Agent/batch → DeepSeek-V4-Flash ; raisonnement entreprise → Claude Opus ; multimodal → Gemini Flash ; nouveaux entrants (Hy3, Owl Alpha) comme signaux avant-coureurs.
Régression sur prompts fixes : Chaque semaine, même sous-ensemble d'issues de code ; mesurer taux d'échec tool-call ; confronter au classement.
Mettre à jour JSON de routage et plafond budget : Tier Flash plus de parallélisme ; Opus plafond mensuel dur ; fallback Sonnet → V4-Flash → file humaine.
Hôte 24 h/24 pour valider le routage : Le routage tourne partout ; avec stack macOS (Claude Code, OpenClaw), déployer les daemons sur Mac Mini en location mensuelle — pas de veille portable la nuit.
{
"weekly_review": "2026-05-24",
"routes": {
"agent_batch": "openrouter/deepseek/deepseek-v4-flash",
"enterprise": "openrouter/anthropic/claude-sonnet-4.6",
"complex_reasoning": "openrouter/anthropic/claude-opus-4.6",
"multimodal": "openrouter/google/gemini-3-flash-preview",
"experiment": "openrouter/owl-alpha"
},
"fallback": ["enterprise", "agent_batch"],
"monthly_cap_usd": 800
}
Pour mémos internes et revues d'architecture — données publiques OpenRouter recoupées presse, période 18–24 mai 2026 :
OpenRouter résout le changement de fournisseur d'inférence, pas la supervision de processus, les clés ni la toolchain Apple. Beaucoup d'équipes minimisent les coûts Flash puis perdent les runs nocturnes en fermant le portable — ou échouent sur Metal/Keychain en VPS Linux. Comme dans le guide tendances OpenRouter et la location Mac Mini pour OpenClaw : les modèles se re-tarifient au token ; la disponibilité de l'hôte est un contrat OpEx. Pour routage multi-modèles, CI iOS et agents nocturnes, la location cloud Mac Mini M4 VpsMesh reste souvent plus fiable qu'un poste personnel. Tarifs : Mac Mini M4 tarifs location, déploiement : centre d'aide.
Le volume hebdomadaire de tokens reflète paiements réels et trafic de production — thermomètre par vote monétaire. Les benchmarks comparent les capacités limites ; OpenRouter + a16z montrent souvent une corrélation inverse. Les décisions majeures combinent tendances hebdomadaires et régression privée ; consulter mensuellement openrouter.ai/rankings.
DeepSeek V4-Flash coûte ~0,10/0,40 $ par M tokens — agents et batch à grande échelle, 3,43T la semaine ; Claude coûte 30 à 50 fois plus, faible part tokens, ~46 % des revenus. Choisir par scénario, pas par le « plus fort » — voir le guide tendances.
Pas obligatoire. L'API OpenRouter seule tourne sur Linux. Avec Claude Code, Xcode ou daemons OpenClaw, la location mensuelle Mac Mini M4 est plus stable. Tester un mois de routage hebdomadaire — tarifs Mac Mini M4, commande page commande, déploiement centre d'aide.