US-Anteil 70→30 % · Volumen≠Qualität · 8-Szenario-Matrix · Q3-Prognose · 6-Schritte-Architektur
Im Juni 2026 liefen drei Entwicklungen parallel: Claude Fable 5 verschwand wegen Exportkontrolle, OpenAI und Anthropic signalisierten IPO-Pläne, und chinesische Modelle überschritten auf OpenRouter die 60-%-Token-Marke. Wer noch mit dem 2025er-Framework auswählt, unterschätzt die Verschiebung. Dieser Bericht liefert auf Basis von OpenRouter-Echtzeittraffic, Artificial Analysis Intelligence Index und SWE-bench Pro das Dual-Ranking (Unternehmen + Modelle), die Interpretation 70 %→30 % US-Anteil, eine Qualitäts-/Volumen-Trennung, eine 8-Szenario-Matrix, die Q3-Roadmap, fünf Makrotrends und ein 6-Schritte-Runbook für modellunabhängige Architektur — inklusive DSGVO-relevanter Enterprise-Hinweise und Begründung, warum Mac Mini M4 Monatsmiete für 7×24-Agenten stabiler ist als ein Notebook.
OpenRouter aggregiert den realen API-Traffic von Millionen Entwicklern weltweit — keine Hersteller-Benchmarks, sondern Produktionsstimmen per Code. Ende Juni 2026 hat sich das Feld grundlegend verschoben: Der Wettbewerb dreht sich um stabile Agent-Produktion, während chinesische Open-Weight-Modelle mit Mindestpreisen 40 Prozentpunkte US-Marktanteil abräumen.
Ranking = Qualitätsranking: Token-Volumen misst ökonomische Wahl, nicht MMLU-Spitzenwerte. Trennen Sie «Volumen-Champion» und «Qualitätsdecke».
Globaler Entwickler-Vote ignoriert: Nutzer in USA, EU und Indien wählen DeepSeek, Xiaomi, MiniMax wegen Preis, Latenz, Ausreichendheit — nicht wegen Herkunft.
Single-Model-Lock-in: Q3 bringt GPT-6, Opus 5, Gemini 4, DeepSeek V5 — der heutige Spitzenreiter kann in drei Monaten wechseln.
Fable-5-Signal übersehen: Volle Qualitätsnote, dann Exportstopp — US-Frontier führt rein technisch, Verfügbarkeit wird zum Risikofaktor.
Nur API gewechselt, Host unverändert: Routing auf OpenRouter ist trivial; 7×24-Daemons, Keychain, Xcode bleiben macOS-gebunden — siehe auch Multi-Model-Routing-Gateway.
Datenstand Juni 2026, Quelle OpenRouter Rankings. Die Liste zeigt, welche Modelle Entwickler in Produktion tatsächlich vertrauen — nicht, welche Pressemitteilung am lautesten war.
| Rang | Unternehmen | Herkunft | Wöchentl. Tokens | Marktanteil |
|---|---|---|---|---|
| 1 | DeepSeek | China | 5,13T | 17,6 % |
| 2 | Anthropic | USA | 4,34T | 14,8 % |
| 3 | USA | 3,66T | 12,5 % | |
| 4 | OpenAI | USA | 2,46T | 8,4 % |
| 5 | Xiaomi | China | 2,42T | 8,3 % |
| 6 | MiniMax | China | 2,37T | 8,1 % |
| 7 | Tencent | China | 2,36T | 8,1 % |
| 8 | Alibaba Qwen | China | 1,26T | 4,3 % |
Die genannten chinesischen Anbieter unter den Top 10 summieren sich auf ca. 46 %; inklusive Moonshot etc. liegt der Gesamtanteil chinesischer Modelle über 60 %.
| Rang | Modell | Anbieter | Tägl. Tokens |
|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 619B |
| 2 | Hy3 Preview | Tencent | 451B |
| 3 | MiniMax M3 | MiniMax | 447B |
| 4 | MiMo-V2.5 | Xiaomi | 327B |
| 5 | DeepSeek V4 Pro | DeepSeek | 300B |
| 6 | Claude Opus 4.7 | Anthropic | 263B |
| 7 | Claude Opus 4.8 | Anthropic | ~200B |
| 8 | Claude Sonnet 4.6 | Anthropic | 178B |
| 9 | Gemini 3 Flash Preview | 156B | |
| 10 | Kimi K2.6 | Moonshot AI | ~150B |
Ein Entwickler aus San Diego: «Mit Claude kostet Coding etwa 10 USD pro Stunde. Mit DeepSeek unter 50 Cent.» — Das ist keine Qualitätsgeschichte, das ist Ökonomie.
Bloomberg/OpenRouter/Exponential View dokumentieren den Shift: Juni 2025 hielten Google + OpenAI + Anthropic zusammen ca. 70 % Token-Anteil; Juni 2026 nur noch ca. 30 %. Die 40 Prozentpunkte gingen an chinesische Modelle — getrieben von globalen Entwicklern, nicht von «Patriotismus».
Stand Artificial Analysis Intelligence Index (Ende Mai 2026):
| Modell | Intelligence Index | SWE-bench Pro | Anmerkung |
|---|---|---|---|
| Claude Opus 4.8 | 61,4 (#1) | 69,2 % | Long Context + Agent führend |
| GPT-5.5 | 59–60 | 63,1 % | Ökosystem + Tool-Calls |
| Gemini 3.1 Pro | 57 | — | Schwerste Reasoning-Tasks |
| Qwen 3.7 Max | 57 | — | Chinesisches Closed-Source-Flaggschiff |
| Claude Sonnet 4.6 | — | 80,8 % (Verified) | Writing + Instruction Following |
Ein Engineer-Test über 20 Aufgaben: Opus 4.8 gewann 16, GPT-5.5 fünf, Gemini 3.1 Pro vier; bei Long-Context-Tasks dominiert Opus klar.
Claude Fable 5 erreichte volle Qualitätsbewertung (100/100), SWE-bench Verified ~95 %, wurde Mitte Juni 2026 wegen Exportkontrolle global entfernt — Status offen. Das bestätigt: US-Frontier führt technisch, Zugänglichkeit schwankt.
| Szenario | Empfohlenes Modell | Begründung |
|---|---|---|
| Komplexer Code / Agent | Claude Opus 4.8 | Index #1, Long Context |
| Tägliches Coding | DeepSeek V4 Flash / MiMo-V2.5 | Preis-Leistung, niedrige Latenz |
| Max. API-Preisvorteil | MiniMax M3 | $0,60/M, Open Weight, Self-Host |
| Long Context | Kimi K2.6 (1M Context) | Extremes Fenster, fairer Preis |
| Google-Ökosystem | Gemini 3.5 Flash | Workspace-native Integration |
| Live-Web-Suche | Grok 4.3 | X/Twitter Echtzeit-Feeds |
| Self-Hosted Deployment | GLM 5.2 / Kimi K2.6 | Top Open-Weight-Modelle |
| Bildgenerierung | ChatGPT Images 2.0 | Textrendering führend |
| Modell | Anbieter | Zeitfenster | Kernargument |
|---|---|---|---|
| GPT-6 | OpenAI | Aug–Sep 2026 | 1,5M Context, stärkere Agenten |
| Claude Opus 5 | Anthropic | ~Sep 2026 | Long-Horizon-Agent-Upgrade |
| Gemini 4 | Q3 2026 | Multimodal, Video/Audio | |
| DeepSeek V5 | DeepSeek | Q3 2026 | Open Weight, >1T Parameter |
| GLM 5.2 | Z.ai | Veröffentlicht | Top Open Weight, starkes Coding |
| Grok 4.3+ | xAI | Q3 2026 | 1M Context, Live-Web |
Mehrere Releases konzentrieren sich im 6-Wochen-Fenster Mitte Aug bis Ende Sep — Benchmark-Führerschaft wechselt schneller als Medienzyklen.
Task-Tiers: L1 Draft (Flash/MiMo), L2 Daily Code (Sonnet/DeepSeek), L3 Long Agent (Opus 4.8/Kimi), L4 Multimodal (Gemini/Grok).
Ein OpenRouter-Endpunkt: Gleiche Base URL, unterschiedliches model-Feld; Keys nur in Keychain oder CI Secret.
Monatliche Hard Caps: Opus-Tier $25/M Output mit Circuit Breaker; Flash-Tier höhere Concurrency.
Feste Prompt-Regression: Wöchentlich gleiche Issue-Subset-Agent-Runs; Tool-Call-Failure-Rate statt nur TTFT messen.
Degradationskette: Opus 4.8 → Sonnet 4.6 → DeepSeek V4 Flash → manuelle Queue — keine Endlosschleifen.
7×24-Host binden: Routing beliebig in der Cloud; bei Claude Code, Xcode, OpenClaw Daemons auf gemieteten Mac Mini deployen, lokal nur Diffs prüfen.
Kernthese: Nicht «China gewinnt», sondern Modell-Margen kollabieren. DeepSeek bewies Anfang 2025: Frontier braucht kein Frontier-Compute — Xiaomi, Tencent, MiniMax, Moonshot replizierten und drückten Basispreise auf den Boden.
US-Strategien divergieren: OpenAI setzt auf Ökosystem; Anthropic hält die Qualitäts-Spitze (Opus Agent); Google auf Speed und Multimodal (Gemini Flash als bestes Closed-Source-Preis-Leistungs-Verhältnis). Die Mittellage «nicht schlecht, aber teuer» verschwindet.
Notebook-Zuklappen killt nächtliche Agent-Läufe; Linux-VPS fehlt Metal, Keychain, Xcode — Integrationskosten verdoppeln sich oft. Reine Web-API-Skripte können überall laufen; bei Claude Code + OpenClaw + iOS CI bündelt VpsMesh Mac Mini M4 Cloud-Miete Uptime und macOS-native Pfade als monatliche OpEx — günstiger als vierteljährliches CLI-Neuaufsetzen nach jedem Ranking-Shuffle. Tarife: Mac Mini M4 Mietpreise, Deployment: Hilfezentrum.
Nach täglichen Tokens: DeepSeek V4 Flash (619B), dann Hy3 Preview (451B) und MiniMax M3 (447B). Nach Unternehmens-Wochen-Tokens: DeepSeek mit 17,6 % Marktanteil. Vollständige Liste: openrouter.ai/rankings.
Aufgabenabhängig. Volumen: chinesische Modelle durch 8× Preisvorteil; Qualität: Claude Opus 4.8 (Index 61,4) für die schwierigsten Agenten. Strategie: Closed Frontier für 5 %, Flash-Tier für 95 %. Routing-Guide: OpenClaw Multi-Model-Routing.
Reine OpenRouter-API: nein. Bei Claude Code, Xcode oder OpenClaw-Daemons ist Mac Mini M4 Monatsmiete stabiler. Ein Monat Test empfohlen — Tarife: Mac Mini M4 Mietpreise, Bestellung: Bestellseite.