他力code(tariki-code)

2026-02-28 AI

Google Gemini 3.1 Pro：ARC-AGI-2で77.1%達成、1世代で推論能力2.5倍の衝撃

2026年2月19日、Google DeepMindはGemini 3.1 Proを公開した。リリース直後から注目を集めているのは、推論ベンチマーク「ARC-AGI-2」での77.1%という前代未聞のスコアだ。前バージョンのGemini 3 Proが記録した31.1%から、わずか1世代で2.5倍超の跳躍を果たした。

主要スペック

項目	Gemini 3.1 Pro
リリース日	2026年2月19日
コンテキストウィンドウ	1,000,000トークン
入力形式	テキスト・画像・音声・動画・PDF・コードリポジトリ
入力価格	$2.00 / 1Mトークン
出力価格	$12.00 / 1Mトークン
ARC-AGI-2スコア	77.1%
思考モード	Low / Medium / High（3段階）※Minimalは非対応
ファイル入力上限	Inline: 100MB／File API: 2GB（PDFは方式問わず50MB／1000ページ上限）

ARC-AGI-2：推論能力の革命的向上

ARC-AGI-2は、モデルがトレーニングデータで一度も見たことがないロジックパターンを解く能力を評価するベンチマークだ。単純な知識の暗記ではなく、真の汎化・抽象推論を測定するため、AI開発者の間で「最も誤魔化しが効きにくい指標」として注目されている。

Gemini 3.1 Proは、このテストで77.1%を記録した。同時期のライバルモデルとの差は歴然としている。

モデル	ARC-AGI-2スコア
Gemini 3.1 Pro	77.1%
Claude Opus 4.6	68.8%
GPT-5.2（Thinking xhigh）	52.9%
Gemini 3 Pro（前世代）	31.1%

この差は単なる数パーセントの改善ではない。Claudeとの差は8.3ポイント、GPT-5.2（Thinking xhigh）との差は24ポイント以上に達する。そしてGemini 3 Proとの比較では、1世代で46ポイント増加という驚異的な伸びを示している。

全体ベンチマーク比較

ただし、Gemini 3.1 Proがあらゆる面で優れているわけではない。Google自身が公開したデータを含む複数の評価では、モデルによって得意分野が異なるという「フロンティアAIの分岐」が鮮明になっている。

ベンチマーク	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.3-Codex
ARC-AGI-2（論理推論）	77.1%	68.8%	-
SWE-Bench Verified（コーディング）	80.6%	80.8%	-
Terminal-Bench 2.0（Terminus-2 harness）	68.5%	-	64.7%
HLE + Tools（専門知識）	51.4%	53.1%	-
GDPval-AA Elo（実務評価）	1,317	1,606	-

※ 「-」はModel Cardに未掲載。ARC-AGI-2の参考値としてGPT-5.2（Thinking xhigh）が52.9%。SWE-Bench VerifiedのGPT-5.3-Codexも未掲載（56.8%はSWE-Bench Pro Publicの値で別ベンチマーク）。

Gemini 3.1 ProはARC-AGI-2で圧倒的リードを見せる一方、SWE-Bench VerifiedではClaude Opus 4.6（80.8%）にわずかに及ばない（80.6%）。Model Card掲載の評価表では広範なベンチマークで前世代・他モデルを上回っているが、コーディングの実装精度や実務評価（GDPval-AA Elo）では依然Claudeが上位を保っている。

思考モード（Thinking Levels）

Gemini 3.1 Proが導入した最大のアーキテクチャ変更は、思考レベルの細分化だ。Gemini 3.1 ProはLow・Medium・Highの3段階をサポートする（Minimalは軽量モデルの Gemini 3.1 Flash 向けで、3.1 Proでは非対応）。

なぜこれが重要か

開発者はこれにより、コストとレスポンス品質のトレードオフを用途別に細かく制御できるようになった。

Low: 要約・分類タスク。標準的なユーザー向け
Medium: ドキュメント作成、コードレビュー。バランス重視
High: 数学的証明、複雑な推論。精度最優先

特に「Medium」の追加は実務的に大きな意味を持つ。従来は「Low（速いが浅い）」か「High（深いが遅い）」の二択しかなかったため、中程度の複雑さのタスクに対して最適解がなかった。

マルチモーダル機能の拡張

Video understanding API経由でYouTube URLを直接入力できる

Gemini 3.1 ProはVideo understanding API経由でYouTube URLを直接入力として受け付ける。動画ファイルをダウンロードしてアップロードする必要がなく、URLを指定するだけでモデルが動画内容を解析・推論できる。

ただし、URLを指定してWebページのテキストを取得するURL context機能とは別の仕組みで、URL context機能はYouTubeをサポートしない。「この動画の重要なポイントをまとめて」「この技術解説動画のコードを再現して」といったユースケースで活用できる。

大容量ファイルの入力に対応

入力方式によって上限が異なる。インライン送信は最大100MB、File APIを使った大容量ファイルは1ファイルあたり2GBまで対応し、プロジェクト合計20GBまでの保持（48時間）ができる。ただしPDFはインライン・File APIの両方に50MB（最大1000ページ）の制限が別途適用される。コードリポジトリ全体や長尺動画のような大規模データを丸ごと渡せる点が、前世代との実質的な差だ。

価格：モデルによって得意な帯域が異なる

Gemini 3.1 Proの料金体系は、用途によって競争力が異なる。

モデル	入力 ($/1Mトークン)	出力 ($/1Mトークン)
GPT-5.3-Codex	$1.75	$14.00
Gemini 3.1 Pro（≤200k tokens）	$2.00	$12.00
Gemini 3.1 Pro（>200k tokens）	$4.00	$18.00
Claude Opus 4.6	$5.00	$25.00

入力単価では GPT-5.3-Codex（$1.75）が最安値で Gemini（$2.00）を若干下回る。出力単価では Gemini 3.1 Pro（$12.00）が最安値となる。Claude Opus 4.6と比較すると、Geminiは入力で2.5倍・出力で約2倍安い。200kトークン超のコンテキストでは Gemini の単価が上がり、各モデルとの差は縮まる。

※ thinking tokensは出力トークンとして課金されるため、Highモード使用時は実コストが表記単価より上振れする可能性がある。

Gemini 3.1 ProはGemini 3 Proの実質的な後継モデルとして同価格帯で提供されている。

依然として課題がある領域

Gemini 3.1 Proが弱いのは、ツールを使った実務的なタスクだ。GDPval-AA Eloというリアルワールドの専門業務を評価するベンチマークでは、Claude Sonnet 4.6（1,633）やClaude Opus 4.6（1,606）に対して1,317と大きく差をつけられている。

抽象的な問題を解く「思考力」は世界最高水準に達したが、ツールを呼び出しながら複雑な作業を段階的に進める「実行力」では、まだAnthropicのClaudeシリーズが優位を保っている。

まとめ

ARC-AGI-2で77.1%：Claude Opus 4.6（68.8%）を8.3ポイント超え大幅リード。一方、実務評価・専門知識領域ではClaudeが優位
前世代比2.5倍：Gemini 3 Proの31.1%から1世代で革命的向上
3段階思考モード（Low/Medium/High）：コスト・精度のトレードオフを開発者が細かく制御可能
YouTube URLを直接入力：動画処理ワークフローが劇的に簡素化
Claude Opus 4.6より入力2.5倍・出力2倍安い：ARC-AGI-2で上回る推論精度をより低価格で提供
実務評価（Elo）では依然Claude優位：ツールを使った複雑な作業はまだ改善余地あり

AIの「最も良いモデルはどれか？」という問いに対して、2026年2月は明確な答えが出なくなった最初の月かもしれない。用途によって最適解が異なる時代が、いよいよ本格的に始まっている。

情報ソース：