OpenAIは2026年3月5日、新フラッグシップモデル「GPT-5.4」をリリースした。今回の最大の特徴はネイティブなコンピュータ操作(Computer Use)機能の搭載と、Excelへの直接統合(ベータ)、さらに機関投資家向け金融データとの連携だ。AIが単なる「質問応答ツール」から「UI操作アクションを返してワークフローを自動化するエージェント」へと本格的に進化した節目となるリリースといえる。
GPT-5.4の概要
GPT-5.4はOpenAIが「推論・コーディング・エージェントワークフローを一つに統合した初の汎用モデル」と位置付ける最新フラッグシップ。ChatGPT、Codex、APIの各プラットフォームで提供され、2つのティアが用意されている。
| ティア | 利用可能なChatGPTプラン |
|---|---|
| GPT-5.4 Thinking | Free / Go / Plus / Pro / Business / Enterprise |
| GPT-5.4 Pro | Pro / Business / Enterprise |
コンテキストウィンドウは1,050,000トークン(API・Codex)に対応し、最大出力は128,000トークン。272,000トークン超では入力・出力ともに単価が上がる仕様。
ネイティブ「コンピュータ操作」機能:人間ベースラインを超えた75%
何ができるのか
GPT-5.4は、OpenAI初の一般用途モデルとしてネイティブなComputer Use機能を搭載したモデルだ。スクリーンショットを入力として受け取り、UIを通じたソフトウェア操作のためのアクションを返す仕組みで、具体的には2つのアプローチを持つ。
- コード経由の操作:PlaywrightなどのライブラリでWebブラウザやアプリを自動操作するコードを生成し、ハーネス側で実行
- ビジュアル経由の操作:スクリーンショットから画面状態を認識し、クリック・キーボード入力などの操作アクションを返す。実際の操作はカスタムハーネスやアプリ側が受け取って実行する
これにより、複数アプリをまたぐ複雑なワークフローをAIエージェントとして自律実行できるようになった。
ベンチマーク:人間超えのOSWorld-Verified 75%
PCのGUI操作能力を測るベンチマーク「OSWorld-Verified」でGPT-5.4は75%を記録し、人間ベースラインを上回った。
| ベンチマーク | GPT-5.4 | GPT-5.4 Pro | Gemini 3.1 Pro | Claude Opus 4.6 |
|---|---|---|---|---|
| OSWorld-Verified (PC操作) | 75% | - | - | - |
| BrowseComp (Web情報収集) | 82.7% | 89.3% | - | - |
| GDPval (専門知識タスク44種) | 83.0% | 82.0% | - | - |
| SWE-Bench Pro Public (コーディング) | 57.7% | - | 54.2% | リーダー(Verified) |
| 投資銀行業務ベンチマーク | 87.3% | 83.6% | - | - |
特筆すべきは投資銀行業務ベンチマーク。3ステートメントモデルの構築・書式整形・引用を含む実務ワークフローの評価で、GPT-5からの43.7%がGPT-5.4 Thinkingで87.3%に倍増した。
金融業務AIへの展開:Excel統合と機関投資家データ連携
ChatGPT for Excel(ベータ)・Google Sheets(近日対応予定)
GPT-5.4と同時に、ChatGPT for Excelがベータリリースされた。Google Sheetsへの統合は現時点では「coming soon」となっており、今後の対応が予定されている。
- Excelのワークブック内からChatGPTを直接呼び出し、セルやフォーミュラを参照しながら財務モデルを構築・更新・シナリオ分析
- GPT-5.4 Thinkingがバックエンドで動作
- 自然言語での指示だけで財務三表モデルや感度分析テーブルを自動生成
機関投資家向けデータ統合
ChatGPT内で直接利用できる金融データプロバイダーとの統合が発表された。発表時点で提供開始済みのものと、今後展開予定のものに分かれる。
本日提供開始:
| プロバイダー | データ種別 |
|---|---|
| Moody's | 債券・リスクデータ |
| Dow Jones Factiva | ニュース・調査レポート |
| MSCI | ポートフォリオ・リスク分析 |
| Third Bridge | エキスパートインサイト |
| MT Newswire | リアルタイムニュース |
エコシステム連携・今後展開予定:
| プロバイダー | データ種別 |
|---|---|
| FactSet | 企業財務・評価データ |
| LSEG(旧Refinitiv) | マーケットデータ |
| S&P Global | 信用格付け・ESGデータ |
| Daloopa | 財務モデリングデータ |
証券アナリストや投資銀行部門が日々利用する機関向けデータをAIのコンテキストに直接取り込める環境が整いつつあり、OpenAIは金融業界向けにAnthropicと真っ向から競合する姿勢を鮮明にした。
APIの価格体系
開発者向けAPI料金は以下の通り。コンテキスト長によって入力・出力の両方の単価が変わる点に注意が必要だ。
| モデル | コンテキスト | 入力(1M tokens) | 出力(1M tokens) |
|---|---|---|---|
| GPT-5.4 | 〜272K tokens | $2.50 | $15.00 |
| GPT-5.4 | 272K tokens超 | $5.00 | $22.50 |
| GPT-5.4 Pro | 〜272K tokens | $30.00 | $180.00 |
| GPT-5.4 Pro | 272K tokens超 | $60.00 | $270.00 |
272,000トークンを超えると入力・出力ともに単価が上昇する(標準は入力2倍・出力1.5倍、Proも同比率)。データレジデンシー・地域処理エンドポイント向けには全料金に10%の追加課金が設定されている。
GitHub Copilotへの統合
GPT-5.4はリリース当日にGitHub Copilotでも一般提供(GA)が開始された。コーディング評価については、SWE-Bench Pro Public(OpenAI独自評価)ではGPT-5.4が57.7%、Gemini 3.1 Proが54.2%。一方、SWE-Bench Verified(独立評価)ではClaude Opus 4.6が依然リーダーを維持している。なお両者は評価セットと測定方法が異なるため、直接比較はできない点に注意が必要だ。
まとめ
- ネイティブPC操作:GPT-5.4はOSWorld-Verified 75%で人間ベースラインを上回り、一般向けモデルとして初の本格エージェント機能を搭載
- 金融業務革命:ChatGPT for Excel(ベータ)+7つの機関向けデータ連携で、投資銀行業務ベンチマークをGPT-5比で2倍(43.7%→87.3%)に改善。Google Sheets対応も予定
- コーディング評価:SWE-Bench Pro Public(OpenAI独自)ではGPT-5.4が57.7%でGemini 3.1 Pro(54.2%)を上回る。SWE-Bench Verified(独立評価)ではClaude Opus 4.6が依然リーダー。両者は評価セットと測定方法が異なるため直接比較不可
- 価格設定:標準$2.50/1M入力は手頃だが、Pro層($30/1M入力)は高性能推論専用のプレミアム価格
- 業界へのインパクト:AIが「質問に答えるツール」から「UI操作アクションを返してワークフローを自動化するエージェント」への転換が、一般向け製品として現実のものになった
情報ソース: