他力code
ブログ一覧に戻る

GPT-5.6 Sol/Terra/Luna登場:Terminal-Benchで最高水準、米政府が「顧客単位」で出荷に関与

2026年6月26日、OpenAIは新フロンティアモデル群「GPT-5.6」をSol・Terra・Lunaの3階層構成で限定プレビュー公開した。フラッグシップのSolはコーディング・生物学・サイバーセキュリティで大きく前進し、OpenAI公式はコマンドライン自動化ベンチマークTerminal-Bench 2.1で最高水準(state of the art)を更新したと説明している。

だが今回のニュースで本当に注目すべきは性能ではない。OpenAIは米国政府の要請に従い、アクセスを政府が個別承認したパートナーだけに限定して出荷した(規模は主要報道で約20社とされる)。商用AIの一般提供を、ホワイトハウスが「顧客ごと」に審査するというのは前例のない事態だ。本記事では3モデルの中身と、その背後で動いた規制の構図を整理する。

6月26日の発表で同時に出た3つのポイント

GPT-5.6に関する確かな情報は、6月26日の発表にほぼ集中している。これに先立つ数日はリリース時期をめぐる予測市場の変動やCodexログでの型番リークといった憶測が先行していたが、裏付けのある内容はこの日に一気に出そろった。発表当日に同時に明らかになった3点を整理する。

観点 内容 インパクト
モデル OpenAI、GPT-5.6 Sol/Terra/Lunaを限定プレビュー公開 3階層構成・Terminal-Bench 2.1でSolが最高水準(報道では91.91%)
提供範囲 米政府の要請でアクセスを承認済みパートナーに限定(報道では約20社規模) 商用AIに政府が「顧客単位」で関与する初の事例
報道・背景 CNBC・TechCrunch・Axios等が一斉報道 6/2の大統領令による枠組み策定中に取られた暫定措置と整理

5月の本ブログ記事では「ホワイトハウスがFDA型のAI事前審査制度を検討中(当時は未発令)」と紹介したが、その構想が6月2日の大統領令(EO:Executive Order。米大統領が連邦政府機関に対して出す行政命令)による自主的枠組みとして形を得て、今回初めて現実の出荷局面で政府が関与する事例につながった。伏線が回収された格好だ。なおこのEOは恒久的なライセンス制度(licensing regime)を法律として創設したものではなく、政府が関与するリリース前レビュー期間を伴う自主的枠組みである点には注意が要る。

Sol・Terra・Luna:3階層の使い分け

GPT-5.6は単一モデルではなく、難易度とコストで切り分けられた3兄弟として設計されている。

モデル 位置づけ 主な用途 入力 / 出力(per 1M tokens)
Sol フラッグシップ 複雑なコーディング、セキュリティ研究、生物学などの最難関タスク $5 / $30
Terra バランス型 カスタマーサポート、社内ツール、文書解析など大量処理業務 $2.50 / $15
Luna 高速・低コスト 要約・下書き・定型自動化など日常タスク $1 / $6

価格設計が巧妙だ。Solの$5/$30はGPT-5.5本体と同額に据え置かれ、中位のTerraは「GPT-5.5と同等の性能を約半額で」提供する。つまり既存ユーザーは、同じ予算でより賢いSolを使うか、同じ性能をTerraで半額に落とすかを選べる構図になっている。

文脈窓についても、一部報道や追跡記事ではSolが1.5Mトークン(GPT-5.5の1.05Mから約43%増)に拡張されたと伝えられている。ただし本稿執筆時点でOpenAI公式のローンチページ・ヘルプページにはこの数値の記載が確認できず、現状は公式未確認の情報である点に留意したい。事実なら、長大なコードベースや契約書群を一度に読ませる用途で効いてくる。

ベンチマーク:Terminal-Bench 2.1で「state of the art」

コマンドライン自動化の難関ベンチマークTerminal-Bench 2.1について、OpenAI公式は「GPT-5.6 Solがstate of the art(最高水準)を更新した」と説明している。公式本文が明言しているのはこの定性的な評価までである。

一方、具体的な数値は公式ローンチページには見当たらず、以下は本稿執筆時点でMarkTechPostやThe Decoder等の主要報道が整理したスコアである(同一ベンチマーク上の値とされる)。

モデル / モード Terminal-Bench 2.1(報道ベース)
GPT-5.6 Sol(ultraモード) 91.91%
GPT-5.6 Sol(maxモード) 88.76%
Claude Mythos 5 88%
GPT-5.5 83.4%

報道ベースの数値ではあるが、Solがmaxモード単体でもClaude Mythos 5(88%)を上回り、ultraモードでさらに約3ポイント上積みしている、という傾向が示されている。事実であれば、エージェント型のコーディング・運用タスクでOpenAIが現時点のトップに返り咲いた形になる。

新推論モード:maxとultra(サブエージェント)

GPT-5.6では推論の「効かせ方」に2つの新モードが加わった。両者は思想が異なる。

  • maxモード:単一の推論チェーンをより深く伸ばす。1つの思考の流れにこれまで以上の時間を割り当て、じっくり考え抜かせる方式。
  • ultraモード:複数のサブエージェントに作業を分割し、並行処理で複雑なタスクを加速する。1体のモデルが直列で解くのではなく、分担して同時に進める方式。

報道ベースで伝えられるTerminal-Benchの最高スコア(91.91%)は、このultraモードで達成されたとされる。単純な「思考時間の延長」だけでなく、内部での並列分業がスコアを押し上げている点が、今回のアーキテクチャ的な見どころだ。

加えてプロンプトキャッシュも刷新された。明示的なキャッシュ区切り(breakpoint)と最低30分のキャッシュ保持に対応し、キャッシュ書き込みは未キャッシュ入力単価の1.25倍で課金、読み込みは従来通り90%割引が継続する。長い共通プロンプトを繰り返し使うエージェント用途でコストが読みやすくなった。

推論基盤の面では、SolをCerebrasハードウェア上で最大750トークン/秒で動かす計画が7月に予定されている(当初は容量制約で対象顧客は限定)。

核心:なぜ米政府がアクセスを止めたのか

今回の発表が単なるモデル更新で終わらないのは、OpenAIが自社の判断で一般提供を絞ったのではなく、米政府の要請に従って絞ったからだ。要点を整理する。

  • 規模:プレビュー対象は「信頼できる少数のパートナー」とされ、Axiosなど主要報道は約20社規模と伝えている(OpenAI公式ヘルプは具体的な社数を明示していない)。各社の名前を米政府が個別に承認し、プレビュー期間中は「顧客単位(customer by customer basis)」で許可を出す運用となっている。
  • 枠組み:背景にあるのは2026年6月2日の大統領令だが、これは恒久的なライセンス制度ではなく、連邦機関によるフロンティアモデルのベンチマーク評価と、政府が関与するリリース前レビュー期間を定めた自主的枠組み(voluntary framework)と整理されている。ただしこの枠組み自体はEOのもとで整備中の段階にあり、6月26日のリリース時点で正式な手続きが確立していたわけではない。今回はその策定中に取られた暫定的な措置として、政府が顧客単位(customer-by-customer)で出荷に関与した初の文書化事例とみられる。
  • 関与機関:段階的リリースの方針は、国家サイバー長官室(ONCD)と科学技術政策局(OSTP)の2機関との協議から出てきた。
  • 懸念の中身:政府が警戒しているのはSolのサイバーセキュリティ能力だ。攻撃的セキュリティ(offensive security)タスクでSolがClaude Mythos 5に匹敵する水準に達したとされ、自由に使えるようになる前に政府が評価したい、という構図になっている。
  • 期限:EOには複数の期限があり混同しやすい。Sec. 3(b)(ii)では covered frontier model について、開発者が広範な提供の前に政府へ最大30日アクセスを与えるレビュー窓が示されている。一方、Sec. 3の分類・レビュー枠組み自体は60日以内に整備される。GPT-5.6の一般提供時期について、OpenAI公式は「数週間以内」としか案内しておらず、具体的な解禁日は確定していない。

注目すべきは、OpenAI自身が「こうした制限が常態であるべきではない」と明言している点だ。安全性レビューには協力しつつ、出荷のたびに政府承認が必要になる前例化には釘を刺している。

これは、6月12日にAnthropicがFable 5・Mythos 5へのアクセスを一時停止した構図と地続きだ(停止理由は公式には非開示だが、政府の圧力が背景にあるとされる)。わずか2週間前には一社の個別事例に見えた政府介入が、今回のEOによる自主的枠組みという形で輪郭を得て、業界横断のプロセスへと近づきつつある。ただし現時点ではあくまで自主ベースの枠組みであり、法的に義務化された審査制度ではない。

日本の開発者・利用者にとっての意味

米国内の話に見えて、影響は日本側にも及ぶ。

第一に、提供タイミングのずれだ。承認済みの少数パートナー中心の出荷である以上、日本のAPIユーザーやChatGPT利用者がSolに触れられるのは一般提供後になる。最新フロンティアへのアクセスに国・契約区分による時間差が生じる構造が、今後は常態化しうる。

第二に、モデル選定の考え方だ。Sol一択ではなく、用途に応じてTerra・Lunaへ落とす設計は、コスト最適化の自由度を上げる。GPT-5.5と同性能を半額で得たいならTerra、定型処理ならLunaという切り分けが、そのまま運用コストに直結する。

第三に、ガバナンス・リスクの可視化だ。サイバーセキュリティや生物学に強いモデルは、それ自体が地政学・規制の対象になる時代に入った。フロンティアモデルを業務に組み込む際は、性能だけでなく「いつ・誰が・どの地域で使えるか」という供給の安定性まで含めて評価する必要が出てきている。

まとめ

  • OpenAIがGPT-5.6をSol・Terra・Lunaの3階層で限定プレビュー公開。価格は$5/$30・$2.50/$15・$1/$6で、TerraはGPT-5.5同等性能を約半額で提供する
  • OpenAI公式はSolがTerminal-Bench 2.1で最高水準(state of the art)を更新したと説明。主要報道はultraモードで91.91%、Claude Mythos 5(88%)・GPT-5.5(83.4%)を上回ると整理している(数値は報道ベース)
  • 新推論モードは2種:maxは単一推論を深掘り、ultraはサブエージェントによる並列分業で加速する
  • アクセスは米政府が個別承認したパートナーに限定(報道では約20社規模、OpenAI公式は社数非公表)。6月2日の大統領令による枠組みは整備途上で、その策定中に取られた暫定措置として、政府が「顧客単位」で出荷に関与した初の文書化事例とみられる
  • 焦点はSolの攻撃的サイバーセキュリティ能力。EOでは開発者が広範提供前に政府へ最大30日のアクセス窓を与える一方、枠組み自体は60日以内に整備される。一般提供時期はOpenAI公式が「数週間以内」と示すのみで解禁日は未確定
  • 6月12日のAnthropic Fable 5 / Mythos 5アクセス停止から続く政府関与が、大統領令による自主的枠組みのもとで輪郭を強めつつある(法的義務化ではない)──性能競争と並んでガバナンスが業界の主戦場になった

情報ソース: