他力code(tariki-code)

2026-06-27 AI Industry

GPT-5.6 Sol/Terra/Luna登場：Terminal-Benchで最高水準、米政府が「顧客単位」で出荷に関与

2026年6月26日、OpenAIは新フロンティアモデル群「GPT-5.6」をSol・Terra・Lunaの3階層構成で限定プレビュー公開した。フラッグシップのSolはコーディング・生物学・サイバーセキュリティで大きく前進し、OpenAI公式はコマンドライン自動化ベンチマークTerminal-Bench 2.1で最高水準（state of the art）を更新したと説明している。

だが今回のニュースで本当に注目すべきは性能ではない。OpenAIは米国政府の要請に従い、アクセスを政府が個別承認したパートナーだけに限定して出荷した（規模は主要報道で約20社とされる）。商用AIの一般提供を、ホワイトハウスが「顧客ごと」に審査するというのは前例のない事態だ。本記事では3モデルの中身と、その背後で動いた規制の構図を整理する。

6月26日の発表で同時に出た3つのポイント

GPT-5.6に関する確かな情報は、6月26日の発表にほぼ集中している。これに先立つ数日はリリース時期をめぐる予測市場の変動やCodexログでの型番リークといった憶測が先行していたが、裏付けのある内容はこの日に一気に出そろった。発表当日に同時に明らかになった3点を整理する。

観点	内容	インパクト
モデル	OpenAI、GPT-5.6 Sol/Terra/Lunaを限定プレビュー公開	3階層構成・Terminal-Bench 2.1でSolが最高水準（報道では91.91%）
提供範囲	米政府の要請でアクセスを承認済みパートナーに限定（報道では約20社規模）	商用AIに政府が「顧客単位」で関与する初の事例
報道・背景	CNBC・TechCrunch・Axios等が一斉報道	6/2の大統領令による枠組み策定中に取られた暫定措置と整理

5月の本ブログ記事では「ホワイトハウスがFDA型のAI事前審査制度を検討中（当時は未発令）」と紹介したが、その構想が6月2日の大統領令（EO：Executive Order。米大統領が連邦政府機関に対して出す行政命令）による自主的枠組みとして形を得て、今回初めて現実の出荷局面で政府が関与する事例につながった。伏線が回収された格好だ。なおこのEOは恒久的なライセンス制度（licensing regime）を法律として創設したものではなく、政府が関与するリリース前レビュー期間を伴う自主的枠組みである点には注意が要る。

Sol・Terra・Luna：3階層の使い分け

GPT-5.6は単一モデルではなく、難易度とコストで切り分けられた3兄弟として設計されている。

モデル	位置づけ	主な用途	入力 / 出力（per 1M tokens）
Sol	フラッグシップ	複雑なコーディング、セキュリティ研究、生物学などの最難関タスク	$5 / $30
Terra	バランス型	カスタマーサポート、社内ツール、文書解析など大量処理業務	$2.50 / $15
Luna	高速・低コスト	要約・下書き・定型自動化など日常タスク	$1 / $6

価格設計が巧妙だ。Solの$5/$30はGPT-5.5本体と同額に据え置かれ、中位のTerraは「GPT-5.5と同等の性能を約半額で」提供する。つまり既存ユーザーは、同じ予算でより賢いSolを使うか、同じ性能をTerraで半額に落とすかを選べる構図になっている。

文脈窓についても、一部報道や追跡記事ではSolが1.5Mトークン（GPT-5.5の1.05Mから約43%増）に拡張されたと伝えられている。ただし本稿執筆時点でOpenAI公式のローンチページ・ヘルプページにはこの数値の記載が確認できず、現状は公式未確認の情報である点に留意したい。事実なら、長大なコードベースや契約書群を一度に読ませる用途で効いてくる。

ベンチマーク：Terminal-Bench 2.1で「state of the art」

コマンドライン自動化の難関ベンチマークTerminal-Bench 2.1について、OpenAI公式は「GPT-5.6 Solがstate of the art（最高水準）を更新した」と説明している。公式本文が明言しているのはこの定性的な評価までである。

一方、具体的な数値は公式ローンチページには見当たらず、以下は本稿執筆時点でMarkTechPostやThe Decoder等の主要報道が整理したスコアである（同一ベンチマーク上の値とされる）。

モデル / モード	Terminal-Bench 2.1（報道ベース）
GPT-5.6 Sol（ultraモード）	91.91%
GPT-5.6 Sol（maxモード）	88.76%
Claude Mythos 5	88%
GPT-5.5	83.4%

報道ベースの数値ではあるが、Solがmaxモード単体でもClaude Mythos 5（88%）を上回り、ultraモードでさらに約3ポイント上積みしている、という傾向が示されている。事実であれば、エージェント型のコーディング・運用タスクでOpenAIが現時点のトップに返り咲いた形になる。

新推論モード：maxとultra（サブエージェント）

GPT-5.6では推論の「効かせ方」に2つの新モードが加わった。両者は思想が異なる。

maxモード：単一の推論チェーンをより深く伸ばす。1つの思考の流れにこれまで以上の時間を割り当て、じっくり考え抜かせる方式。
ultraモード：複数のサブエージェントに作業を分割し、並行処理で複雑なタスクを加速する。1体のモデルが直列で解くのではなく、分担して同時に進める方式。

報道ベースで伝えられるTerminal-Benchの最高スコア（91.91%）は、このultraモードで達成されたとされる。単純な「思考時間の延長」だけでなく、内部での並列分業がスコアを押し上げている点が、今回のアーキテクチャ的な見どころだ。

加えてプロンプトキャッシュも刷新された。明示的なキャッシュ区切り（breakpoint）と最低30分のキャッシュ保持に対応し、キャッシュ書き込みは未キャッシュ入力単価の1.25倍で課金、読み込みは従来通り90%割引が継続する。長い共通プロンプトを繰り返し使うエージェント用途でコストが読みやすくなった。

推論基盤の面では、SolをCerebrasハードウェア上で最大750トークン/秒で動かす計画が7月に予定されている（当初は容量制約で対象顧客は限定）。

核心：なぜ米政府がアクセスを止めたのか

今回の発表が単なるモデル更新で終わらないのは、OpenAIが自社の判断で一般提供を絞ったのではなく、米政府の要請に従って絞ったからだ。要点を整理する。

規模：プレビュー対象は「信頼できる少数のパートナー」とされ、Axiosなど主要報道は約20社規模と伝えている（OpenAI公式ヘルプは具体的な社数を明示していない）。各社の名前を米政府が個別に承認し、プレビュー期間中は「顧客単位（customer by customer basis）」で許可を出す運用となっている。
枠組み：背景にあるのは2026年6月2日の大統領令だが、これは恒久的なライセンス制度ではなく、連邦機関によるフロンティアモデルのベンチマーク評価と、政府が関与するリリース前レビュー期間を定めた自主的枠組み（voluntary framework）と整理されている。ただしこの枠組み自体はEOのもとで整備中の段階にあり、6月26日のリリース時点で正式な手続きが確立していたわけではない。今回はその策定中に取られた暫定的な措置として、政府が顧客単位（customer-by-customer）で出荷に関与した初の文書化事例とみられる。
関与機関：段階的リリースの方針は、国家サイバー長官室（ONCD）と科学技術政策局（OSTP）の2機関との協議から出てきた。
懸念の中身：政府が警戒しているのはSolのサイバーセキュリティ能力だ。攻撃的セキュリティ（offensive security）タスクでSolがClaude Mythos 5に匹敵する水準に達したとされ、自由に使えるようになる前に政府が評価したい、という構図になっている。
期限：EOには複数の期限があり混同しやすい。Sec. 3(b)(ii)では covered frontier model について、開発者が広範な提供の前に政府へ最大30日アクセスを与えるレビュー窓が示されている。一方、Sec. 3の分類・レビュー枠組み自体は60日以内に整備される。GPT-5.6の一般提供時期について、OpenAI公式は「数週間以内」としか案内しておらず、具体的な解禁日は確定していない。

注目すべきは、OpenAI自身が「こうした制限が常態であるべきではない」と明言している点だ。安全性レビューには協力しつつ、出荷のたびに政府承認が必要になる前例化には釘を刺している。

これは、6月12日にAnthropicがFable 5・Mythos 5へのアクセスを一時停止した構図と地続きだ（停止理由は公式には非開示だが、政府の圧力が背景にあるとされる）。わずか2週間前には一社の個別事例に見えた政府介入が、今回のEOによる自主的枠組みという形で輪郭を得て、業界横断のプロセスへと近づきつつある。ただし現時点ではあくまで自主ベースの枠組みであり、法的に義務化された審査制度ではない。

日本の開発者・利用者にとっての意味

米国内の話に見えて、影響は日本側にも及ぶ。

第一に、提供タイミングのずれだ。承認済みの少数パートナー中心の出荷である以上、日本のAPIユーザーやChatGPT利用者がSolに触れられるのは一般提供後になる。最新フロンティアへのアクセスに国・契約区分による時間差が生じる構造が、今後は常態化しうる。

第二に、モデル選定の考え方だ。Sol一択ではなく、用途に応じてTerra・Lunaへ落とす設計は、コスト最適化の自由度を上げる。GPT-5.5と同性能を半額で得たいならTerra、定型処理ならLunaという切り分けが、そのまま運用コストに直結する。

第三に、ガバナンス・リスクの可視化だ。サイバーセキュリティや生物学に強いモデルは、それ自体が地政学・規制の対象になる時代に入った。フロンティアモデルを業務に組み込む際は、性能だけでなく「いつ・誰が・どの地域で使えるか」という供給の安定性まで含めて評価する必要が出てきている。

まとめ

OpenAIがGPT-5.6をSol・Terra・Lunaの3階層で限定プレビュー公開。価格は$5/$30・$2.50/$15・$1/$6で、TerraはGPT-5.5同等性能を約半額で提供する
OpenAI公式はSolがTerminal-Bench 2.1で最高水準（state of the art）を更新したと説明。主要報道はultraモードで91.91%、Claude Mythos 5（88%）・GPT-5.5（83.4%）を上回ると整理している（数値は報道ベース）
新推論モードは2種：maxは単一推論を深掘り、ultraはサブエージェントによる並列分業で加速する
アクセスは米政府が個別承認したパートナーに限定（報道では約20社規模、OpenAI公式は社数非公表）。6月2日の大統領令による枠組みは整備途上で、その策定中に取られた暫定措置として、政府が「顧客単位」で出荷に関与した初の文書化事例とみられる
焦点はSolの攻撃的サイバーセキュリティ能力。EOでは開発者が広範提供前に政府へ最大30日のアクセス窓を与える一方、枠組み自体は60日以内に整備される。一般提供時期はOpenAI公式が「数週間以内」と示すのみで解禁日は未確定
6月12日のAnthropic Fable 5 / Mythos 5アクセス停止から続く政府関与が、大統領令による自主的枠組みのもとで輪郭を強めつつある（法的義務化ではない）──性能競争と並んでガバナンスが業界の主戦場になった

情報ソース：