GPT-5.6 Sol, Terra & Luna: Benchmarks, Preise, Zugang & Runbook (2026)

Release 26.06. · Sol/Terra/Luna-Preise · TerminalBench 91,9 % · Regierungs-Preview · Juli-GA · 6-Schritte-Runbook

GPT-5.6 Sol Terra Luna release benchmarks pricing June 2026

Als KI-Entwickler, API-Einkäufer oder Cursor/Codex-Nutzer fragen Sie sich nach OpenAIs Release vom 26. Juni, ob Sie Ihren Stack umbauen sollten. GPT-5.6 Sol, Terra und Luna liefern TerminalBench-Rekorde und Himmelskörper-Namensgebung, doch nur etwa 20 geprüfte Partner haben Zugang, während die US-Regierung ihre erste Frontier-Modell-Prüfung abschließt. Dieser Leitfaden liefert verifizierte Release-Fakten, Sol/Terra/Luna-Preise und Modi, Benchmark-Tabellen vs. Claude Mythos 5, Sicherheitsmechanismen, Juli-Zugangs-Timeline, Use-Case-Empfehlungen und ein 6-Schritte-Produktions-Runbook — damit Sie nicht auf Preview-only-Zugang setzen.

01

Fünf harte Probleme für Produktionsteams in der GPT-5.6-Launch-Woche

Kern: OpenAI veröffentlichte GPT-5.6 am 26. Juni 2026 mit neuer Himmelskörper-Namensgebung — Sol (Flagship), Terra (ausgewogen), Luna (leicht). Sols Ultra-Multi-Agent-Modus erreicht TerminalBench 2.1 mit 91,9 % und verdrängt Claude Mythos 5 nach nur 17 Tagen an der Spitze. Breiter ChatGPT- und API-Zugang bleibt Wochen entfernt; Polymarket bewertet GA bis 31. Juli mit 87 %. Teams, die auf unsere Juni-Leak-Intelligence reagierten, stehen vor einem neuen Problem: Das Modell existiert, die meisten Entwickler können es nicht aufrufen.

Fünf Pain Points gegen sofortige Adoption

  1. 01

    Partner-only Preview: Nur ~20 staatlich genehmigte Partner erreichen Sol, Terra und Luna über API und Codex. Allgemeine ChatGPT-Nutzer sehen noch nichts — Wochen bis GA.

  2. 02

    Erste US-Release-Beschränkung: Trumps Executive Order vom 2. Juni löste eine Anfrage des Weißen Hauses aus, den Rollout zu begrenzen. Washingtons erste formale Sperre eines Frontier-Modells — mit Exportkontroll-Echo für Anthropics Fable-5-Abschaltung.

  3. 03

    Ultra-Modus Token-Ökonomie: Sols Multi-Agent-Ultra treibt Benchmark-Rekorde, verbrennt aber deutlich mehr Output-Tokens als der Standardmodus — Budgets explodieren, wenn jede Anfrage über Ultra läuft.

  4. 04

    Big Three im Juni blockiert: OpenAI preview-lockte GPT-5.6, Anthropic zwang Mythos 5 und Fable 5 am 12. Juni offline, Google verschob Gemini 3.5 Pro auf Juli. Kein westliches Lab lieferte diesen Monat ein vollständig offenes Flagship.

  5. 05

    Unvollständiges System Card: SWE-Bench Pro und andere agentische Scores für GPT-5.6 sind nicht vollständig veröffentlicht. TerminalBench-Führung ist verifiziert; andere Claude-Vergleiche bleiben vorläufig.

Der Juni 2026 sollte der größte KI-Release-Monat der Geschichte werden. Stattdessen blieben alle drei westlichen Frontier-Familien an der Tür — Preview-Lock, Exportkontrolle oder Verzögerung.

02

GPT-5.6 Sol, Terra & Luna: Preise, Modi und Modellvergleich

OpenAI führte erstmals Himmelskörper-Namen ein. Sol zielt auf maximale Leistung mit Max (langsam, präzise) und Ultra (Multi-Agent-Parallel) Reasoning. Terra liefert GPT-5.5-Niveau zu halben Sol-Kosten. Luna ist die Budget-Stufe — erhielt dennoch OpenAIs „High“-Cybersecurity-Rating, erstmals für ein Nicht-Flagship derselben Familie. Für EU-Unternehmen: Preisvergleiche und Verarbeitungsorte vor Vertragsabschluss mit Ihrer DSGVO-Compliance prüfen — insbesondere bei sensiblen Dokumenten auf Terra und HealthBench-Daten auf Sol.

ModellBest ForInput / OutputKontextHighlight
GPT-5.6 SolKomplexes Coding, Security Research, Long-Horizon Agents$5 / $30 pro 1M Tokens~1,5M TokensMax + Ultra; TerminalBench #1
GPT-5.6 TerraHigh-Volume Business Docs, Support, interne Tools$2,50 / $15 pro 1M Tokens~1,5M TokensGPT-5.5-Niveau, 50 % günstiger
GPT-5.6 LunaZusammenfassung, Entwürfe, Routine-Automation$1 / $6 pro 1M Tokens~1,5M Tokens80 % günstiger als Sol; High Cyber Rating

Sol Max vs Ultra: Wann welcher Modus

  • Max-Modus: Sol investiert extra Reasoning-Zeit vor der Antwort — langsamer, genauer. Wenn Korrektheit Latenz schlägt.
  • Ultra-Modus: Sol spawniert Subagenten, die Aufgaben aufteilen, parallel ausführen und mergen. Architektur hinter dem 91,9 %-TerminalBench-Rekord. Nur für genuinely komplexe Agent-Workflows; Token-Verbrauch deutlich höher.

Preise vs GPT-5.5 und Claude Fable 5

ModellInputOutputHinweise
GPT-5.6 Sol$5/M$30/MGleicher Preis wie GPT-5.5, deutlich höhere Leistung
GPT-5.6 Terra$2,50/M$15/M50 % günstiger als Sol; GPT-5.5-Parität
GPT-5.6 Luna$1/M$6/M80 % günstiger als Sol
Claude Fable 5$10/M$50/MOffline seit 12.06. Exportkontrolle
03

GPT-5.6 Benchmark-Ergebnisse: TerminalBench, CTF und Agent-Scores

GPT-5.6 ist die erste OpenAI-Familie, in der alle drei Stufen die interne „High“-Cybersecurity-Klassifikation passierten. Führung ist am deutlichsten bei agentischem Coding und Security Research; Life-Science-Scores steigen gegenüber GPT-5.5.

TerminalBench 2.1 (Coding Agents)

TerminalBench 2.1 führt 89 komplexe CLI-Planungsaufgaben aus — Multi-Step-Tool-Use, iterative Reparatur und Task-Koordination näher an echter Agent-Arbeit als Single-Shot-Code-Completion.

ModellScoreModus
GPT-5.6 Sol91,9 %Ultra (Multi-Agent)
GPT-5.6 Sol88,8 %Standard
Claude Mythos 588,0 %Standard
GPT-5.583,4 %Standard
Gemini 3.1 Pro Preview70,7 %Standard

Mythos 5 hielt die Spitze nur 17 Tage seit der Krönung am 9. Juni, bevor Sol es verdrängte.

Agent's Last Exam (Long-Horizon Tasks)

ModellTask Completion (Code Mode)
GPT-5.6 Sol50,9 % — einziges Modell über 50 %
GPT-5.6 LunaLeicht über GPT-5.5

Cybersecurity: CTF und ExploitBench

ModellCTF Hit Rate
Sol96,7 %
Terra91,84 %
Luna85,19 %

Auf ExploitBench entspricht Sol Anthropics Mythos Preview bei etwa einem Drittel der Output-Tokens — vergleichbare Vulnerability-Research-Fähigkeit zu deutlich niedrigeren Kosten.

!

Sicherheitsgrenze: OpenAI-Red-Teaming bestätigte: Sol kann Schwachstellen und Exploit-Primitive in Chromium- und Firefox-Codebasen identifizieren, aber keine vollständigen, funktionalen Exploit-Chains autonom gegen gehärtete Ziele konstruieren. Unter OpenAIs „Cyber Critical“-Schwelle.

Life Sciences

  • GeneBench v1: Sol erreicht GPT-5.5-Niveau oder besser bei Genomik und quantitativer Biologie mit weniger Tokens.
  • HealthBench Professional: Sol 60,5+8,7 Punkte über GPT-5.5. Für EU-Gesundheitsdaten: DSGVO-konforme Verarbeitung und AV-Vertrag vor Produktivbetrieb klären.
04

Regierungssperre, Big-Three-Verzögerungen, GPT-5.6 vs Claude Mythos 5

Trump Executive Order und erste Release-Beschränkung

Am 2. Juni 2026 unterzeichnete Präsident Trump eine Executive Order, die US-Behörden bis zu 30 Tage Vorab-Zugang zur Prüfung von Frontier-KI-Modellen erlaubt. Am 26. Juni bat das Weiße Haus — koordiniert durch OSTP und das Office of the National Cyber Director — OpenAI, GPT-5.6 auf etwa 20 vorab genehmigte Partner zu begrenzen. Erstes Mal, dass die US-Regierung formal verlangte, ein Modell nicht öffentlich freizugeben.

OpenAI folgte, widersprach aber öffentlich: „Wir glauben nicht, dass dieser Regierungszugangsprozess langfristiger Standard werden sollte. Er hält die besten Werkzeuge von Nutzern, Entwicklern, Unternehmen, Cyber-Verteidigern und globalen Partnern fern, die sie brauchen.“

Die Big Three: Im Juni 2026 alle blockiert

UnternehmenModellStatus
OpenAIGPT-5.6 Sol / Terra / LunaBegrenzte Preview (~20 Orgs)
AnthropicClaude Fable 5 / Mythos 512.06. offline (Exportkontrolle)
GoogleGemini 3.5 ProAuf Juli verschoben (ursprünglich Juni)

GPT-5.6 Sol vs Claude Mythos 5

DimensionGPT-5.6 SolClaude Mythos 5
TerminalBench 2.191,9 % (Ultra) / 88,8 % Standard88,0 %
ExploitBenchNahezu identisch; ~1/3 Output-TokensStark (eingeschränkter Zugang)
Preise$5 / $30 pro 1M Tokens$10 / $50 (derzeit offline)
VerfügbarkeitPreview → GA in WochenOffline (US-Exportkontrolle)
Kontextfenster~1,5M Tokens200K Tokens

Sol führt TerminalBench an und bietet vergleichbare Security-Research-Fähigkeit zum halben Fable-5-Preis. Mythos 5 kann SWE-Bench Pro und andere Benchmarks führen, bis OpenAI das vollständige System Card veröffentlicht.

In GPT-5.6 eingebaute Sicherheitsmechanismen

  • Echtzeit-Missbrauchs-Klassifikatoren auf jeder Ausgabe
  • Account-Level-Review für sensible Workflows — relevant für DSGVO-Audit-Trails in Enterprise-Umgebungen
  • 700.000 A100-äquivalente GPU-Stunden automatisiertes Red-Teaming
  • Universelle Jailbreak-Tests über Cross-Prompt-Angriffsvektoren
  • Spezialisiertes Large-Reasoning-Modell filtert Antworten bei Primär-Safeguard-Ausfall
  • Externe Security-Organisation-Review vor Launch

Cerebras-Geschwindigkeit: 750 Tokens pro Sekunde ab Juli

Ab Juli 2026 läuft GPT-5.6 Sol auf Cerebras-Hardware für ausgewählte Enterprise-Kunden mit bis zu 750 Tokens pro Sekunde — etwa 5× bis 15× schneller als heutige 50–150 tok/s Frontier-Modelle. Eine 10-Sekunden-Antwort kann unter eine Sekunde fallen — für Echtzeit-Coding-Assistenten und Live-Agent-UIs.

i

Zugangs-Timeline: Jetzt (~20 Partner, nur API/Codex). Juli 2026: ChatGPT-GA (Plus/Pro zuerst), öffentliche API, Cerebras-beschleunigtes Sol. Polymarket: 87 % Wahrscheinlichkeit breiter Release bis 31. Juli.

05

6-Schritte-Runbook, Use Cases und zitierbare Daten

Bauen Sie Produktion nicht auf Preview-only-Zugang um. Das Runbook trennt heute machbare Schritte von Post-GA-Checks, sobald ChatGPT- und API-Endpunkte breit öffnen.

6-Schritte-Produktions-Runbook

  1. 01

    Stack halten: GPT-5.5, Claude Opus 4.8 oder Sonnet 4.6 in Produktion, bis Sol/Terra/Luna allgemeine API-Verfügbarkeit erreichen. Preview-Scores garantieren keine Workload-Performance.

  2. 02

    Workloads jetzt mappen: Komplexes Agent-Coding → Sol (Ultra nur bei Rechtfertigung), High-Volume-Business-Logic → Terra, Zusammenfassung/Klassifikation → Luna. Token-Budgets vor GA dokumentieren.

  3. 03

    GA-Signale überwachen: openai.com/blog, platform.openai.com/docs und Polymarkets 31.-Juli-Kontrakt tracken. Status-Page-Alerts am ChatGPT-Launch-Tag — historisch 24–48 Stunden vor API.

  4. 04

    Eigene Workloads post-GA benchmarken: TerminalBench-ähnliche Multi-Step-Tasks, Frontend-Generierung, Long-Context-Retrieval auf Sol Standard vs Ultra. Ultra-91,9 % nicht blind auf Ihre Repo-Struktur übertragen.

  5. 05

    Juli Cerebras-Latenz-Tests planen: Sub-Sekunden-Streaming (Live-Coding, kundenorientierte Agents) → Enterprise-Cerebras-Zugang früh anfragen — initiale Kapazität begrenzt.

  6. 06

    Multi-Vendor-Fallback: Juni bewies: Kein Frontier-Modell ist dauerhaft verfügbar. Exportkontroll-Exposure für ausländische Mitarbeiter dokumentieren; Anthropic/OpenAI/Gemini-Routing in Gateway-Config halten.

Welches GPT-5.6-Modell für welchen Bedarf?

Ihr BedarfEmpfohlenes Modell
Komplexe Coding Agents, Multi-Step-SWESol (Ultra für härteste Tasks)
Enterprise-Docs, Support-Tickets, skalierte API-CallsTerra
Zusammenfassung, Entwürfe, Routine-AutomationLuna
GPT-5.5-Leistung zum halben PreisTerra
Latenzkritische Apps ab JuliSol auf Cerebras (750 tok/s)
bash
export PRIMARY_MODEL="gpt-5.5"
export PREVIEW_TARGET="gpt-5.6-sol"
export FALLBACK_MODELS="claude-opus-4-8,gpt-5.5,gemini/gemini-2.5-pro"
curl -s https://status.openai.com/api/v2/status.json | jq '.status.description'

Zitierbare Datenpunkte (27. Juni 2026)

  • TerminalBench 2.1: GPT-5.6 Sol 91,9 % (Ultra), 88,8 % Standard — vs Mythos 5 88,0 %, GPT-5.5 83,4 %, Gemini 3.1 Pro Preview 70,7 %.
  • CTF Hit Rates: Sol 96,7 %, Terra 91,84 %, Luna 85,19 % — erste Familie, in der alle drei Stufen „High“-Cyber-Klassifikation erreichen.
  • Polymarket GA-Odds: Etwa 87 % Wahrscheinlichkeit breiter Release bis 31. Juli 2026.
  • Cerebras-Durchsatz: Bis 750 tok/s für Sol ab Juli — 5–15× schneller als typische 50–150 tok/s Frontier-Output.
  • HealthBench Professional: Sol 60,5 (+8,7 vs GPT-5.5).

Sol-Ultra-Agents auf dem Laptop bedeuten: Background Agents stoppen beim Zuklappen, Linux-VPS fehlen Metal- und Keychain-Grenzen für Codex, geteilte Dev-Maschinen erzeugen API-Key-Kollisionen bei parallelen Agent-Loops. Preview-only-Modelle auf instabiler Hardware verschwenden die Woche zwischen Partner-Zugang und Juli-GA. Teams, die 24/7 Cloud Agents, persistente Cursor Rules und Lid-Closed-Compile-Chains für A/B-Tests an Sol, Terra und Luna am API-Öffnungstag brauchen, profitieren von einem dedizierten Mac-Host. VpsMesh Mac Mini M4 Cloud-Miete liefert launchd-Zuverlässigkeit, SSH und monatliche Abrechnung in einem Produktionsknoten — siehe Mietpreise, Deployment im Hilfezentrum, Provisionierung vor Juli-GA über die Bestellseite.

FAQ

Sieben Fragen, die Entwickler jetzt suchen

Noch nicht für die Allgemeinheit. Stand 27. Juni 2026 können nur etwa 20 geprüfte Partner Sol, Terra und Luna über API und Codex nutzen. ChatGPT-Rollout in Wochen erwartet — Polymarket bewertet GA bis 31. Juli mit ~87 %.

Sol führt TerminalBench 2.1 mit 91,9 % (Ultra) gegenüber Claude Mythos 5 mit 88 %. Fable 5 führt noch bei SWE-Bench Pro, offizielle GPT-5.6 SWE-Bench-Werte fehlen. Sol ist das bessere Preis-Leistungs-Verhältnis — vergleichbares oder besseres agentisches Coding zu etwa der Hälfte des Fable-5-Preises.

Ultra-Modus setzt mehrere KI-Subagenten ein, die eine komplexe Aufgabe aufteilen, parallel ausführen und ein Ergebnis zusammenführen. Er trieb Sols 91,9 %-TerminalBench-Rekord, verbraucht aber deutlich mehr Tokens als der Standardmodus — nur für genuinely harte Agent-Workflows.

Nach Trumps Executive Order vom 2. Juni 2026 bat das Weiße Haus OpenAI, GPT-5.6 während einer Regierungs-Sicherheitsprüfung zu begrenzen. Erstes Mal, dass Washington formal verlangte, eine Frontier-Freigabe einzuschränken. OpenAI folgte, lehnt aber dauerhafte Praxis ab.

Bis zu 750 Tokens pro Sekunde für GPT-5.6 Sol auf Cerebras ab Juli 2026 — etwa 5–15× schneller als die meisten Frontier-Modelle mit 50–150 tok/s. Initialer Zugang für ausgewählte Enterprise-Kunden.

Berichtet mit etwa 1,5 Millionen Tokens für Sol, Terra und Luna — gegenüber 1 Mio. bei GPT-5.5. Offizielle Bestätigung mit vollständigem System Card bei GA erwartet.

Produktion auf GPT-5.5 oder Claude Opus 4.8 halten, aber jetzt einen 24/7-Mac-Host provisionieren, um Sol/Terra/Luna am Endpunkt-Öffnungstag zu benchmarken. Siehe Mac Mini M4 Cloud-Mietpreise und Hilfezentrum für Deployment-Schritte.