GPT-5.6 Sol / Terra / Luna 正式発表:性能・価格・ベンチマーク完全解説

6月26日ローンチ · Sol/Terra/Luna価格 · TerminalBench 91.9% · 政府審査限定プレビュー · 7月GA · 6ステップRunbook

GPT-5.6 Sol Terra Luna ベンチマーク比較 2026年6月

AI開発者、API購入担当者、Cursor/Codexユーザーの方で、OpenAIの2026年6月26日ローンチをどう選定に反映すべきか迷っているなら、答えは単純ではありません。GPT-5.6 Sol、Terra、LunaはTerminalBench記録と太陽系命名を伴って登場しましたが、米政府の初のフロンティアモデル審査の間、約20社の審査済みパートナーのみが利用できます。本記事では確認済みリリース事実3モデルの価格とMax/UltraモードClaude Mythos 5とのベンチマーク比較安全機構7月GAタイムラインユースケース推奨6ステップ本番Runbookを提供し、プレビュー限定アクセスに依存しない計画を立てられるようにします。

01

GPT-5.6ローンチ週が本番チームに与える5つの課題

結論:OpenAIは2026年6月26日にGPT-5.6を発表し、太陽系命名体系を導入しました——Sol(フラッグシップ)、Terra(バランス)、Luna(軽量)です。SolのUltraマルチAgentモードはTerminalBench 2.1で91.9%を記録し、6月9日に首位に立ったClaude Mythos 5をわずか17日で追い抜きました。しかしChatGPTとAPIの一般公開は数週間先で、Polymarketは7月31日までの全面GA確率を約87%と見ています。当サイトの6月漏洩情報まとめで動いたチームは、モデルは存在するがほとんどの開発者が呼び出せないという新たな問題に直面しています。

即時導入を阻む5つの痛点

  1. 01

    パートナー限定プレビュー:約20社の政府承認済み組織のみがAPI/Codex経由でSol/Terra/Lunaにアクセスできます。一般ChatGPTユーザーはまだ利用不可で、GAまで数週間かかります。

  2. 02

    初の米国リリース制限:2026年6月2日のトランプ大統領令により、OpenAIはロールアウトを制限するよう求められました。AnthropicのFable 5停止と同様、輸出規制の前例を思い起こさせる初の事例です。

  3. 03

    UltraモードのToken経済:SolのマルチAgent Ultraモードはベンチマーク記録を支えますが、標準モードより出力Tokenを大幅に消費します。全リクエストをUltraに流すと予算を簡単に超過します。

  4. 04

    6月のBig Three停滞:OpenAIはGPT-5.6をプレビュー限定、Anthropicは6月12日にMythos 5/Fable 5を強制停止、GoogleはGemini 3.5 Proを7月に延期しました。西側主要ラボは今月、完全公開のフラッグシップを出せませんでした。

  5. 05

    System Card未完了:GPT-5.6のSWE-Bench Pro等のスコアは未公開です。TerminalBench首位は確認済みですが、Claudeとの他ベンチマーク比較は暫定です。

2026年6月はAI史上最大のリリース月になるはずでした。しかし西側3社のフロンティアファミリーはすべて扉の前で止まりました——プレビュー限定、輸出規制、または延期です。

02

GPT-5.6 Sol / Terra / Luna:価格・モード・モデル比較

OpenAIは初めて天体命名を導入しました。Solは新しいMax(低速・高精度)とUltra(マルチAgent並列)推論モードを備えます。TerraはGPT-5.5相当の性能をSolの半額で提供します。Lunaは予算向けですが、同一ファミリーで初めて非フラッグシップがOpenAIの「High」サイバーセキュリティ評価を獲得しました。

モデル用途入力 / 出力コンテキストハイライト
GPT-5.6 Sol複雑なコーディング、セキュリティ研究、長期Agent$5 / $30 per 1M tokens~1.5M tokensMax + Ultra;TerminalBench #1
GPT-5.6 Terra大量ビジネス文書、サポート、内部ツール$2.50 / $15 per 1M tokens~1.5M tokensGPT-5.5級を50%低コスト
GPT-5.6 Luna要約、下書き、日常自動化$1 / $6 per 1M tokens~1.5M tokensSol比80%安;High cyber評価

Sol Max vs Ultra:使い分け

  • Maxモード:Solは応答前により多くの推論時間を使います。正確性がレイテンシより重要な場面向けです。
  • Ultraモード:複数サブAgentがタスクを分割し並列実行して結果を統合します。TerminalBench 91.9%の要因です。本当に複雑なAgentワークフロー向けで、Token消費は大幅に増えます。

GPT-5.5 / Claude Fable 5との価格比較

モデル入力出力備考
GPT-5.6 Sol$5/M$30/MGPT-5.5と同価格で大幅に高性能
GPT-5.6 Terra$2.50/M$15/MSol比50%安;GPT-5.5同等
GPT-5.6 Luna$1/M$6/MSol比80%安
Claude Fable 5$10/M$50/M6月12日輸出規制で停止
03

GPT-5.6ベンチマーク:TerminalBench、CTF、Agentスコア

GPT-5.6はOpenAI初の3ティアすべてが内部「High」サイバーセキュリティ分類を超えたファミリーです。Agenticコーディングとセキュリティ研究で優位性が最も明確で、生命科学スコアもGPT-5.5比で有意な改善があります。

TerminalBench 2.1(コーディングAgent)

TerminalBench 2.1は89問の複雑なCLI計画課題で、多段ツール利用、反復修正、タスク調整を評価します。

モデルスコアモード
GPT-5.6 Sol91.9%Ultra(マルチAgent)
GPT-5.6 Sol88.8%標準
Claude Mythos 588.0%標準
GPT-5.583.4%標準
Gemini 3.1 Pro Preview70.7%標準

Mythos 5は6月9日に首位に立ってからわずか17日でSolに追い抜かれました。

Agent's Last Exam(長期タスク)

モデルタスク完了率(コードモード)
GPT-5.6 Sol50.9% — 50%超え唯一のモデル
GPT-5.6 LunaGPT-5.5をわずかに上回る

サイバーセキュリティ:CTFとExploitBench

モデルCTF命中率
Sol96.7%
Terra91.84%
Luna85.19%

ExploitBenchでは、SolはAnthropic Mythos Previewとほぼ同等の性能を、出力Token約3分の1で達成します。

!

安全境界:OpenAIのレッドチーミングでは、SolはChromium/Firefoxコードベースで脆弱性とエクスプロイト原語を識別できますが、完全に機能するエクスプロイトチェーンを自律的に構築することはできません。OpenAIの「Cyber Critical」閾値以下に留まっています。

生命科学

  • GeneBench v1:Solはより少ないTokenでGPT-5.5以上のゲノミクス・定量生物学スコアを達成します。
  • HealthBench Professional:Solは60.5点 — GPT-5.5比+8.7点です。
04

政府制限、Big Three延期、GPT-5.6 vs Claude Mythos 5

トランプ大統領令と初のリリース制限

2026年6月2日、トランプ大統領は米機関がフロンティアAIモデルを公開前最大30日間審査できる大統領令に署名しました。6月26日、OSTPと国家サイバー局長室(ONCD)の調整のもと、OpenAIはGPT-5.6を約20社の事前承認「信頼できるパートナー」に限定公開することに同意しました。これは米政府がAI企業にフロンティアモデルの公開制限を初めて正式に要求した事例です。

OpenAIは従いましたが公に反論しました:「この種の政府アクセスプロセスを長期的なデフォルトにすべきではない。本当に必要なユーザー、開発者、企業、サイバー防衛者、グローバルパートナーから最高のツールを遠ざける。」

Big Three:2026年6月はすべて停滞

企業モデル状態
OpenAIGPT-5.6 Sol / Terra / Luna限定プレビュー(約20社)
AnthropicClaude Fable 5 / Mythos 56月12日輸出規制で強制停止
GoogleGemini 3.5 Pro7月に延期(当初6月予定)

GPT-5.6 Sol vs Claude Mythos 5

次元GPT-5.6 SolClaude Mythos 5
TerminalBench 2.191.9%(Ultra)/ 88.8% 標準88.0%
ExploitBenchほぼ同等;出力Token約1/3強力(アクセス制限)
価格$5 / $30 per 1M tokens$10 / $50(現在停止)
可用性プレビュー → 数週間でGA停止(米輸出規制)
コンテキスト~1.5M tokens200K tokens

SolはTerminalBenchで先行し、Fable 5の半額で同等のセキュリティ研究能力を提供します。Mythos 5はSWE-Bench Pro等で依然優位かもしれませんが、OpenAIの完全System Card公開を待つ必要があります。

GPT-5.6に組み込まれた安全機構

  • リアルタイム悪用分類器 — すべての出力で稼働
  • アカウントレベル審査 — 機密ワークフロー向け
  • 70万A100相当GPU時間の自動レッドチーミング
  • 汎用ジェイルブレイクテスト — クロスプロンプト攻撃ベクトル
  • 専用大規模推論モデル — 主防御失敗時に応答を遮断
  • 外部セキュリティ組織レビュー — ローンチ前

Cerebras速度:7月750 tokens/秒

2026年7月から、GPT-5.6 SolはCerebrasハードウェアで一部エンタープライズ顧客向けに最大750 tokens/秒で提供されます。現行50–150 tok/sの5〜15倍です。10秒の応答が1秒未満になる可能性があり、リアルタイムコーディング助手やライブAgent UIに革命をもたらします。

i

アクセスタイムライン:現在(約20社がAPI/Codexのみ)。2026年7月:ChatGPT GA(Plus/Pro優先)、公開API、Cerebras加速Sol。Polymarketは7月31日までの全面公開確率を約87%と見ています。

05

6ステップRunbook、ユースケース、引用可能データ

プレビュー限定アクセスで本番を再設計しないでください。本Runbookは今日実行できることと、ChatGPT/APIが一般公開された後の確認を分離します。

6ステップ本番Runbook

  1. 01

    現行スタックを維持:GAまでGPT-5.5、Claude Opus 4.8、またはSonnet 4.6を本番に使い続けます。プレビュースコアは自社ワークロード性能を保証しません。

  2. 02

    ティアを事前マッピング:複雑なAgentコーディングはSol(Ultraは正当化できる場合のみ)、大量ビジネスロジックはTerra、要約・分類はLuna。GA前にToken予算を文書化します。

  3. 03

    GAシグナルを監視:openai.com/blog、platform.openai.com/docs、Polymarket 7月31日契約を追跡します。ChatGPTローンチ日にAPI可用性アラートを設定します(歴史的にAPIは24–48時間遅れます)。

  4. 04

    GA後に自社ベンチマーク:TerminalBench型多段タスク、フロントエンド生成、長コンテキスト検索をSol標準 vs Ultraで実行します。Ultra 91.9%が自社リポジトリ構造に転用できるとは限りません。

  5. 05

    7月Cerebrasレイテンシテストを計画:サブ秒ストリーミングが重要なら(ライブコーディング、顧客向けAgent)、初期容量が限られるCerebrasエンタープライスアクセスを早めに確保します。

  6. 06

    マルチベンダーフォールバックを維持:6月はどのフロンティアも永久利用可能ではないことを証明しました。外国籍スタッフの輸出規制リスクを文書化し、Gateway設定にAnthropic/OpenAI/Geminiルーティングを残します。

どのGPT-5.6モデルを使うべきか

ニーズ推奨モデル
複雑なコーディングAgent、多段SWEワークフローSol(最難タスクはUltra)
エンタープライズ文書、サポート、大量API呼び出しTerra
要約、下書き、日常自動化Luna
GPT-5.5性能を半額でTerra
7月以降のレイテンシ重視アプリCerebras上のSol(750 tok/s)

引用可能データポイント(2026年6月27日)

  • TerminalBench 2.1:GPT-5.6 Sol 91.9%(Ultra)、88.8%標準 — Mythos 5 88.0%、GPT-5.5 83.4%、Gemini 3.1 Pro Preview 70.7%
  • CTF命中率:Sol 96.7%、Terra 91.84%、Luna 85.19% — 3ティアすべて「High」サイバー分類初のファミリー。
  • Polymarket GA確率:2026年7月31日までの全面公開約87%
  • Cerebrasスループット:7月Sol最大750 tok/s — 典型50–150 tok/sの5–15倍
  • HealthBench Professional:Sol 60.5(GPT-5.5比+8.7)。

ノートPCでSol Ultra Agentを動かすと、フタを閉じるとBackground Agentが停止し、Linux VPSにはCodex向けMetal/Keychain境界がなく、共有開発マシンでは2つのAgentループが同時起動するとAPIキー衝突が起きます。プレビュー限定モデルを不安定なハードウェアで追うのは、パートナーアクセスと7月GAの間の1週間を無駄にします。24/7 Cloud Agent、永続Cursor Rules、フタ閉じコンパイルチェーンが必要で、API公開日にSol/Terra/LunaをA/Bテストしたいチームには、専用Macホストが個人ハードウェアの応急処置より優れます。API GA前から本番ノードを1台確保できるVpsMesh Mac Mini M4クラウドレンタルは、launchd信頼性、SSH、月額課金を1ノードに集約します — レンタル価格ヘルプセンターのデプロイ手順を参照してください。

FAQ

GPT-5.6 よくある質問

一般公開はまだです。2026年6月27日時点では、約20社の審査済みパートナーのみがAPI/Codex経由でSol/Terra/Lunaにアクセスできます。ChatGPT全面提供は数週間以内が見込まれ、Polymarketは7月31日GA確率を約87%と見ています。

SolはTerminalBench 2.1で91.9%(Ultra)を記録し、Claude Mythos 5の88%を上回ります。Claude Fable 5はSWE-Bench Proで依然優位ですが、GPT-5.6のSWE-Bench公式スコアは未公開です。SolはFable 5の約半額で同等以上のAgenticコーディングを提供します。

Ultraモードは複数AIサブAgentが複雑タスクを分割し並列実行して統合結果を返します。SolのTerminalBench 91.9%の要因ですが、標準モードよりToken消費が大幅に増えます。本当に難しいAgentワークフロー向けに限定してください。

2026年6月2日のトランプ大統領令後、白宮は政府セキュリティ審査中のGPT-5.6制限をOpenAIに要請しました。WashingtonがAI企業にフロンティア公開制限を初めて正式要求した事例です。OpenAIは従いましたが、恒久化に反対する声明を出しています。

2026年7月からGPT-5.6 SolはCerebrasで最大750 tokens/秒 — 現行50–150 tok/sの5–15倍です。初期アクセスは一部エンタープライズ顧客に限定されます。

API GAまで本番はGPT-5.5またはClaude Opus 4.8を維持しつつ、エンドポイント公開日にSol/Terra/Lunaをベンチマークできる24/7 Macホストを今すぐ確保してください。Mac Mini M4クラウドレンタル価格ヘルプセンターのデプロイ手順をご覧ください。