Google Gemini 3.1 Pro:ARC-AGI-2で77.1%達成、1世代で推論能力2.5倍の衝撃
2026年2月19日、Google DeepMindはGemini 3.1 Proを公開した。リリース直後から注目を集めているのは、推論ベンチマーク「ARC-AGI-2」での77.1%という前代未聞のスコアだ。前バージョンのGemini 3 Proが記録した31.1%から、わずか1世代で2.5倍超の跳躍を果たした。
主要スペック
| 項目 | Gemini 3.1 Pro |
|---|---|
| リリース日 | 2026年2月19日 |
| コンテキストウィンドウ | 1,000,000トークン |
| 入力形式 | テキスト・画像・音声・動画・PDF・コードリポジトリ |
| 入力価格 | $2.00 / 1Mトークン |
| 出力価格 | $12.00 / 1Mトークン |
| ARC-AGI-2スコア | 77.1% |
| 思考モード | Low / Medium / High(3段階)※Minimalは非対応 |
| ファイル入力上限 | Inline: 100MB/File API: 2GB(PDFは方式問わず50MB/1000ページ上限) |
ARC-AGI-2:推論能力の革命的向上
ARC-AGI-2は、モデルがトレーニングデータで一度も見たことがないロジックパターンを解く能力を評価するベンチマークだ。単純な知識の暗記ではなく、真の汎化・抽象推論を測定するため、AI開発者の間で「最も誤魔化しが効きにくい指標」として注目されている。
Gemini 3.1 Proは、このテストで77.1%を記録した。同時期のライバルモデルとの差は歴然としている。
| モデル | ARC-AGI-2スコア |
|---|---|
| Gemini 3.1 Pro | 77.1% |
| Claude Opus 4.6 | 68.8% |
| GPT-5.2(Thinking xhigh) | 52.9% |
| Gemini 3 Pro(前世代) | 31.1% |
この差は単なる数パーセントの改善ではない。Claudeとの差は8.3ポイント、GPT-5.2(Thinking xhigh)との差は24ポイント以上に達する。そしてGemini 3 Proとの比較では、1世代で46ポイント増加という驚異的な伸びを示している。
全体ベンチマーク比較
ただし、Gemini 3.1 Proがあらゆる面で優れているわけではない。Google自身が公開したデータを含む複数の評価では、モデルによって得意分野が異なるという「フロンティアAIの分岐」が鮮明になっている。
| ベンチマーク | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.3-Codex |
|---|---|---|---|
| ARC-AGI-2(論理推論) | 77.1% | 68.8% | - |
| SWE-Bench Verified(コーディング) | 80.6% | 80.8% | - |
| Terminal-Bench 2.0(Terminus-2 harness) | 68.5% | - | 64.7% |
| HLE + Tools(専門知識) | 51.4% | 53.1% | - |
| GDPval-AA Elo(実務評価) | 1,317 | 1,606 | - |
※ 「-」はModel Cardに未掲載。ARC-AGI-2の参考値としてGPT-5.2(Thinking xhigh)が52.9%。SWE-Bench VerifiedのGPT-5.3-Codexも未掲載(56.8%はSWE-Bench Pro Publicの値で別ベンチマーク)。
Gemini 3.1 ProはARC-AGI-2で圧倒的リードを見せる一方、SWE-Bench VerifiedではClaude Opus 4.6(80.8%)にわずかに及ばない(80.6%)。Model Card掲載の評価表では広範なベンチマークで前世代・他モデルを上回っているが、コーディングの実装精度や実務評価(GDPval-AA Elo)では依然Claudeが上位を保っている。
思考モード(Thinking Levels)
Gemini 3.1 Proが導入した最大のアーキテクチャ変更は、思考レベルの細分化だ。Gemini 3.1 ProはLow・Medium・Highの3段階をサポートする(Minimalは軽量モデルの Gemini 3.1 Flash 向けで、3.1 Proでは非対応)。
なぜこれが重要か
開発者はこれにより、コストとレスポンス品質のトレードオフを用途別に細かく制御できるようになった。
- Low: 要約・分類タスク。標準的なユーザー向け
- Medium: ドキュメント作成、コードレビュー。バランス重視
- High: 数学的証明、複雑な推論。精度最優先
特に「Medium」の追加は実務的に大きな意味を持つ。従来は「Low(速いが浅い)」か「High(深いが遅い)」の二択しかなかったため、中程度の複雑さのタスクに対して最適解がなかった。
マルチモーダル機能の拡張
Video understanding API経由でYouTube URLを直接入力できる
Gemini 3.1 ProはVideo understanding API経由でYouTube URLを直接入力として受け付ける。動画ファイルをダウンロードしてアップロードする必要がなく、URLを指定するだけでモデルが動画内容を解析・推論できる。
ただし、URLを指定してWebページのテキストを取得するURL context機能とは別の仕組みで、URL context機能はYouTubeをサポートしない。「この動画の重要なポイントをまとめて」「この技術解説動画のコードを再現して」といったユースケースで活用できる。
大容量ファイルの入力に対応
入力方式によって上限が異なる。インライン送信は最大100MB、File APIを使った大容量ファイルは1ファイルあたり2GBまで対応し、プロジェクト合計20GBまでの保持(48時間)ができる。ただしPDFはインライン・File APIの両方に50MB(最大1000ページ)の制限が別途適用される。コードリポジトリ全体や長尺動画のような大規模データを丸ごと渡せる点が、前世代との実質的な差だ。
価格:モデルによって得意な帯域が異なる
Gemini 3.1 Proの料金体系は、用途によって競争力が異なる。
| モデル | 入力 ($/1Mトークン) | 出力 ($/1Mトークン) |
|---|---|---|
| GPT-5.3-Codex | $1.75 | $14.00 |
| Gemini 3.1 Pro(≤200k tokens) | $2.00 | $12.00 |
| Gemini 3.1 Pro(>200k tokens) | $4.00 | $18.00 |
| Claude Opus 4.6 | $5.00 | $25.00 |
入力単価では GPT-5.3-Codex($1.75)が最安値で Gemini($2.00)を若干下回る。出力単価では Gemini 3.1 Pro($12.00)が最安値となる。Claude Opus 4.6と比較すると、Geminiは入力で2.5倍・出力で約2倍安い。200kトークン超のコンテキストでは Gemini の単価が上がり、各モデルとの差は縮まる。
※ thinking tokensは出力トークンとして課金されるため、Highモード使用時は実コストが表記単価より上振れする可能性がある。
Gemini 3.1 ProはGemini 3 Proの実質的な後継モデルとして同価格帯で提供されている。
依然として課題がある領域
Gemini 3.1 Proが弱いのは、ツールを使った実務的なタスクだ。GDPval-AA Eloというリアルワールドの専門業務を評価するベンチマークでは、Claude Sonnet 4.6(1,633)やClaude Opus 4.6(1,606)に対して1,317と大きく差をつけられている。
抽象的な問題を解く「思考力」は世界最高水準に達したが、ツールを呼び出しながら複雑な作業を段階的に進める「実行力」では、まだAnthropicのClaudeシリーズが優位を保っている。
まとめ
- ARC-AGI-2で77.1%:Claude Opus 4.6(68.8%)を8.3ポイント超え大幅リード。一方、実務評価・専門知識領域ではClaudeが優位
- 前世代比2.5倍:Gemini 3 Proの31.1%から1世代で革命的向上
- 3段階思考モード(Low/Medium/High):コスト・精度のトレードオフを開発者が細かく制御可能
- YouTube URLを直接入力:動画処理ワークフローが劇的に簡素化
- Claude Opus 4.6より入力2.5倍・出力2倍安い:ARC-AGI-2で上回る推論精度をより低価格で提供
- 実務評価(Elo)では依然Claude優位:ツールを使った複雑な作業はまだ改善余地あり
AIの「最も良いモデルはどれか?」という問いに対して、2026年2月は明確な答えが出なくなった最初の月かもしれない。用途によって最適解が異なる時代が、いよいよ本格的に始まっている。
情報ソース: