他力code
ブログ一覧に戻る

Google Gemini 3.1 Pro:ARC-AGI-2で77.1%達成、1世代で推論能力2.5倍の衝撃

2026年2月19日、Google DeepMindはGemini 3.1 Proを公開した。リリース直後から注目を集めているのは、推論ベンチマーク「ARC-AGI-2」での77.1%という前代未聞のスコアだ。前バージョンのGemini 3 Proが記録した31.1%から、わずか1世代で2.5倍超の跳躍を果たした。

主要スペック

項目 Gemini 3.1 Pro
リリース日 2026年2月19日
コンテキストウィンドウ 1,000,000トークン
入力形式 テキスト・画像・音声・動画・PDF・コードリポジトリ
入力価格 $2.00 / 1Mトークン
出力価格 $12.00 / 1Mトークン
ARC-AGI-2スコア 77.1%
思考モード Low / Medium / High(3段階)※Minimalは非対応
ファイル入力上限 Inline: 100MB/File API: 2GB(PDFは方式問わず50MB/1000ページ上限)

ARC-AGI-2:推論能力の革命的向上

ARC-AGI-2は、モデルがトレーニングデータで一度も見たことがないロジックパターンを解く能力を評価するベンチマークだ。単純な知識の暗記ではなく、真の汎化・抽象推論を測定するため、AI開発者の間で「最も誤魔化しが効きにくい指標」として注目されている。

Gemini 3.1 Proは、このテストで77.1%を記録した。同時期のライバルモデルとの差は歴然としている。

モデル ARC-AGI-2スコア
Gemini 3.1 Pro 77.1%
Claude Opus 4.6 68.8%
GPT-5.2(Thinking xhigh) 52.9%
Gemini 3 Pro(前世代) 31.1%

この差は単なる数パーセントの改善ではない。Claudeとの差は8.3ポイント、GPT-5.2(Thinking xhigh)との差は24ポイント以上に達する。そしてGemini 3 Proとの比較では、1世代で46ポイント増加という驚異的な伸びを示している。

全体ベンチマーク比較

ただし、Gemini 3.1 Proがあらゆる面で優れているわけではない。Google自身が公開したデータを含む複数の評価では、モデルによって得意分野が異なるという「フロンティアAIの分岐」が鮮明になっている。

ベンチマーク Gemini 3.1 Pro Claude Opus 4.6 GPT-5.3-Codex
ARC-AGI-2(論理推論) 77.1% 68.8% -
SWE-Bench Verified(コーディング) 80.6% 80.8% -
Terminal-Bench 2.0(Terminus-2 harness) 68.5% - 64.7%
HLE + Tools(専門知識) 51.4% 53.1% -
GDPval-AA Elo(実務評価) 1,317 1,606 -

※ 「-」はModel Cardに未掲載。ARC-AGI-2の参考値としてGPT-5.2(Thinking xhigh)が52.9%。SWE-Bench VerifiedのGPT-5.3-Codexも未掲載(56.8%はSWE-Bench Pro Publicの値で別ベンチマーク)。

Gemini 3.1 ProはARC-AGI-2で圧倒的リードを見せる一方、SWE-Bench VerifiedではClaude Opus 4.6(80.8%)にわずかに及ばない(80.6%)。Model Card掲載の評価表では広範なベンチマークで前世代・他モデルを上回っているが、コーディングの実装精度や実務評価(GDPval-AA Elo)では依然Claudeが上位を保っている。

思考モード(Thinking Levels)

Gemini 3.1 Proが導入した最大のアーキテクチャ変更は、思考レベルの細分化だ。Gemini 3.1 ProはLow・Medium・Highの3段階をサポートする(Minimalは軽量モデルの Gemini 3.1 Flash 向けで、3.1 Proでは非対応)。

なぜこれが重要か

開発者はこれにより、コストとレスポンス品質のトレードオフを用途別に細かく制御できるようになった。

  • Low: 要約・分類タスク。標準的なユーザー向け
  • Medium: ドキュメント作成、コードレビュー。バランス重視
  • High: 数学的証明、複雑な推論。精度最優先

特に「Medium」の追加は実務的に大きな意味を持つ。従来は「Low(速いが浅い)」か「High(深いが遅い)」の二択しかなかったため、中程度の複雑さのタスクに対して最適解がなかった。

マルチモーダル機能の拡張

Video understanding API経由でYouTube URLを直接入力できる

Gemini 3.1 ProはVideo understanding API経由でYouTube URLを直接入力として受け付ける。動画ファイルをダウンロードしてアップロードする必要がなく、URLを指定するだけでモデルが動画内容を解析・推論できる。

ただし、URLを指定してWebページのテキストを取得するURL context機能とは別の仕組みで、URL context機能はYouTubeをサポートしない。「この動画の重要なポイントをまとめて」「この技術解説動画のコードを再現して」といったユースケースで活用できる。

大容量ファイルの入力に対応

入力方式によって上限が異なる。インライン送信は最大100MB、File APIを使った大容量ファイルは1ファイルあたり2GBまで対応し、プロジェクト合計20GBまでの保持(48時間)ができる。ただしPDFはインライン・File APIの両方に50MB(最大1000ページ)の制限が別途適用される。コードリポジトリ全体や長尺動画のような大規模データを丸ごと渡せる点が、前世代との実質的な差だ。

価格:モデルによって得意な帯域が異なる

Gemini 3.1 Proの料金体系は、用途によって競争力が異なる。

モデル 入力 ($/1Mトークン) 出力 ($/1Mトークン)
GPT-5.3-Codex $1.75 $14.00
Gemini 3.1 Pro(≤200k tokens) $2.00 $12.00
Gemini 3.1 Pro(>200k tokens) $4.00 $18.00
Claude Opus 4.6 $5.00 $25.00

入力単価では GPT-5.3-Codex($1.75)が最安値で Gemini($2.00)を若干下回る。出力単価では Gemini 3.1 Pro($12.00)が最安値となる。Claude Opus 4.6と比較すると、Geminiは入力で2.5倍・出力で約2倍安い。200kトークン超のコンテキストでは Gemini の単価が上がり、各モデルとの差は縮まる。

※ thinking tokensは出力トークンとして課金されるため、Highモード使用時は実コストが表記単価より上振れする可能性がある。

Gemini 3.1 ProはGemini 3 Proの実質的な後継モデルとして同価格帯で提供されている。

依然として課題がある領域

Gemini 3.1 Proが弱いのは、ツールを使った実務的なタスクだ。GDPval-AA Eloというリアルワールドの専門業務を評価するベンチマークでは、Claude Sonnet 4.6(1,633)やClaude Opus 4.6(1,606)に対して1,317と大きく差をつけられている。

抽象的な問題を解く「思考力」は世界最高水準に達したが、ツールを呼び出しながら複雑な作業を段階的に進める「実行力」では、まだAnthropicのClaudeシリーズが優位を保っている。

まとめ

  • ARC-AGI-2で77.1%:Claude Opus 4.6(68.8%)を8.3ポイント超え大幅リード。一方、実務評価・専門知識領域ではClaudeが優位
  • 前世代比2.5倍:Gemini 3 Proの31.1%から1世代で革命的向上
  • 3段階思考モード(Low/Medium/High):コスト・精度のトレードオフを開発者が細かく制御可能
  • YouTube URLを直接入力:動画処理ワークフローが劇的に簡素化
  • Claude Opus 4.6より入力2.5倍・出力2倍安い:ARC-AGI-2で上回る推論精度をより低価格で提供
  • 実務評価(Elo)では依然Claude優位:ツールを使った複雑な作業はまだ改善余地あり

AIの「最も良いモデルはどれか?」という問いに対して、2026年2月は明確な答えが出なくなった最初の月かもしれない。用途によって最適解が異なる時代が、いよいよ本格的に始まっている。


情報ソース: