他力code(tariki-code)

2026-03-07 AI

OpenAIは2026年3月5日、新フラッグシップモデル「GPT-5.4」をリリースした。今回の最大の特徴はネイティブなコンピュータ操作（Computer Use）機能の搭載と、Excelへの直接統合（ベータ）、さらに機関投資家向け金融データとの連携だ。AIが単なる「質問応答ツール」から「UI操作アクションを返してワークフローを自動化するエージェント」へと本格的に進化した節目となるリリースといえる。

GPT-5.4の概要

GPT-5.4はOpenAIが「推論・コーディング・エージェントワークフローを一つに統合した初の汎用モデル」と位置付ける最新フラッグシップ。ChatGPT、Codex、APIの各プラットフォームで提供され、2つのティアが用意されている。

ティア	利用可能なChatGPTプラン
GPT-5.4 Thinking	Free / Go / Plus / Pro / Business / Enterprise
GPT-5.4 Pro	Pro / Business / Enterprise

コンテキストウィンドウは1,050,000トークン（API・Codex）に対応し、最大出力は128,000トークン。272,000トークン超では入力・出力ともに単価が上がる仕様。

ネイティブ「コンピュータ操作」機能：人間ベースラインを超えた75%

何ができるのか

GPT-5.4は、OpenAI初の一般用途モデルとしてネイティブなComputer Use機能を搭載したモデルだ。スクリーンショットを入力として受け取り、UIを通じたソフトウェア操作のためのアクションを返す仕組みで、具体的には2つのアプローチを持つ。

コード経由の操作：PlaywrightなどのライブラリでWebブラウザやアプリを自動操作するコードを生成し、ハーネス側で実行
ビジュアル経由の操作：スクリーンショットから画面状態を認識し、クリック・キーボード入力などの操作アクションを返す。実際の操作はカスタムハーネスやアプリ側が受け取って実行する

これにより、複数アプリをまたぐ複雑なワークフローをAIエージェントとして自律実行できるようになった。

ベンチマーク：人間超えのOSWorld-Verified 75%

PCのGUI操作能力を測るベンチマーク「OSWorld-Verified」でGPT-5.4は75%を記録し、人間ベースラインを上回った。

ベンチマーク	GPT-5.4	GPT-5.4 Pro	Gemini 3.1 Pro	Claude Opus 4.6
OSWorld-Verified (PC操作)	75%	-	-	-
BrowseComp (Web情報収集)	82.7%	89.3%	-	-
GDPval (専門知識タスク44種)	83.0%	82.0%	-	-
SWE-Bench Pro Public (コーディング)	57.7%	-	54.2%	リーダー（Verified）
投資銀行業務ベンチマーク	87.3%	83.6%	-	-

特筆すべきは投資銀行業務ベンチマーク。3ステートメントモデルの構築・書式整形・引用を含む実務ワークフローの評価で、GPT-5からの43.7%がGPT-5.4 Thinkingで87.3%に倍増した。

金融業務AIへの展開：Excel統合と機関投資家データ連携

ChatGPT for Excel（ベータ）・Google Sheets（近日対応予定）

GPT-5.4と同時に、ChatGPT for Excelがベータリリースされた。Google Sheetsへの統合は現時点では「coming soon」となっており、今後の対応が予定されている。

Excelのワークブック内からChatGPTを直接呼び出し、セルやフォーミュラを参照しながら財務モデルを構築・更新・シナリオ分析
GPT-5.4 Thinkingがバックエンドで動作
自然言語での指示だけで財務三表モデルや感度分析テーブルを自動生成

機関投資家向けデータ統合

ChatGPT内で直接利用できる金融データプロバイダーとの統合が発表された。発表時点で提供開始済みのものと、今後展開予定のものに分かれる。

本日提供開始：

プロバイダー	データ種別
Moody's	債券・リスクデータ
Dow Jones Factiva	ニュース・調査レポート
MSCI	ポートフォリオ・リスク分析
Third Bridge	エキスパートインサイト
MT Newswire	リアルタイムニュース

エコシステム連携・今後展開予定：

プロバイダー	データ種別
FactSet	企業財務・評価データ
LSEG（旧Refinitiv）	マーケットデータ
S&P Global	信用格付け・ESGデータ
Daloopa	財務モデリングデータ

証券アナリストや投資銀行部門が日々利用する機関向けデータをAIのコンテキストに直接取り込める環境が整いつつあり、OpenAIは金融業界向けにAnthropicと真っ向から競合する姿勢を鮮明にした。

APIの価格体系

開発者向けAPI料金は以下の通り。コンテキスト長によって入力・出力の両方の単価が変わる点に注意が必要だ。

モデル	コンテキスト	入力（1M tokens）	出力（1M tokens）
GPT-5.4	〜272K tokens	$2.50	$15.00
GPT-5.4	272K tokens超	$5.00	$22.50
GPT-5.4 Pro	〜272K tokens	$30.00	$180.00
GPT-5.4 Pro	272K tokens超	$60.00	$270.00

272,000トークンを超えると入力・出力ともに単価が上昇する（標準は入力2倍・出力1.5倍、Proも同比率）。データレジデンシー・地域処理エンドポイント向けには全料金に10%の追加課金が設定されている。

GitHub Copilotへの統合

GPT-5.4はリリース当日にGitHub Copilotでも一般提供（GA）が開始された。コーディング評価については、SWE-Bench Pro Public（OpenAI独自評価）ではGPT-5.4が57.7%、Gemini 3.1 Proが54.2%。一方、SWE-Bench Verified（独立評価）ではClaude Opus 4.6が依然リーダーを維持している。なお両者は評価セットと測定方法が異なるため、直接比較はできない点に注意が必要だ。

まとめ

ネイティブPC操作：GPT-5.4はOSWorld-Verified 75%で人間ベースラインを上回り、一般向けモデルとして初の本格エージェント機能を搭載
金融業務革命：ChatGPT for Excel（ベータ）＋7つの機関向けデータ連携で、投資銀行業務ベンチマークをGPT-5比で2倍（43.7%→87.3%）に改善。Google Sheets対応も予定
コーディング評価：SWE-Bench Pro Public（OpenAI独自）ではGPT-5.4が57.7%でGemini 3.1 Pro（54.2%）を上回る。SWE-Bench Verified（独立評価）ではClaude Opus 4.6が依然リーダー。両者は評価セットと測定方法が異なるため直接比較不可
価格設定：標準$2.50/1M入力は手頃だが、Pro層（$30/1M入力）は高性能推論専用のプレミアム価格
業界へのインパクト：AIが「質問に答えるツール」から「UI操作アクションを返してワークフローを自動化するエージェント」への転換が、一般向け製品として現実のものになった

情報ソース：