他力code(tariki-code)

2026-04-04 AI

2026年4月2日、GoogleはGemma 4を発表した。Gemini 3と同じ研究成果をベースに構築された4つのオープンウェイトモデル群で、今回初めてApache 2.0ライセンスを採用した点が業界に大きな衝撃を与えている。商用利用・改変・再配布の自由度が従来モデルから大幅に広がり、小型オープンソースモデルの常識を塗り替える存在だ。

Gemma 4のラインナップ：4サイズで幅広い用途をカバー

Gemma 4は用途に応じた4つのモデルで構成される。

モデル	実効パラメータ	推論時アクティブ	特徴
E2B	2.3B	2.3B	音声入力対応・モバイル向け
E4B	4.5B	4.5B	音声入力対応・エッジデバイス向け
26B A4B MoE	26B（総数）	3.8B（実動作）	低レイテンシ・高速推論
31B Dense	31B	31B	最高品質・サーバー向け

E2BとE4Bはネイティブ音声入力（音声認識・理解）を搭載し、全モデルが画像・動画をネイティブ処理できる（動画はフレーム列として入力）。多言語対応は140言語以上。コンテキストウィンドウはE2B/E4Bが128K トークン、上位の26B MoEと31B Denseが256K トークンとなっている。

アーキテクチャ革新：MoEと交互アテンション

Mixture of Experts（MoE）の威力

26B MoEモデルは128のエキスパートを持ちながら、推論時にはそのうち一部（合計3.8B相当）のみを活性化する設計だ。これにより「VRAMに収まりさえすれば密なモデルより遥かに速いトークン生成速度」を実現する。

交互アテンション機構

ローカルスライディングウィンドウアテンション（512〜1024トークン）：短距離の文脈把握に特化
グローバル全文脈アテンション：長距離の依存関係を捕捉

この2種類のアテンションをレイヤーごとに交互に配置することで、効率性と精度の両立を実現。また後半レイヤーが前半のKV（キー・バリュー）テンソルを再利用することで、メモリと計算コストをさらに削減している。

上位モデルの256Kコンテキストで精度劣化を防ぐProportional RoPE（位置エンコーディング）の採用も、長文処理精度の向上に貢献している。

ベンチマーク：前世代比4倍の数学力

AIME 2026（数学コンテスト問題）

モデル	スコア
Gemma 4 31B Dense	89.2%
Gemma 4 26B MoE（3.8B有効）	88.3%
Gemma 3 27B（前世代）	20.8%

AIME 2026ではGemma 3 27Bの20.8%から89.2%へ大幅改善を記録。さらに驚くべきは26B MoEモデルが31Bに迫るスコアを、わずか3.8Bの有効パラメータで叩き出している点だ。

Arena AIリーダーボード（テキスト）

Gemma 4 31B：オープンモデル世界3位
Gemma 4 26B MoE：オープンモデル世界6位

いずれも自身の20倍以上のサイズを持つモデルを上回るスコアを記録しており、「バイトあたり最も有能なオープンモデル」というGoogleの主張を裏付けている。

Apache 2.0：オープンソースAIの新基準

従来のオープンウェイトモデルには商用利用のMAU上限や独自の使用制限が付随することが多かった。Gemma 4はGemmaシリーズ初のApache 2.0採用モデルとして、その自由度を大きく引き上げている：

MAU上限なし：ユーザー数によるライセンス費用の上乗せがない
商用利用・改変・再配布が可能：製品組み込みやファインチューニングモデルの配布に適したライセンス
派生物への継承義務なし：Apacheライセンスの特性上、派生物を同じライセンスで公開する必要がない

ただし、GoogleはGoogle AI for Developersにて別途Gemma Prohibited Use Policyを設けており、危険・違法・悪意ある用途への使用は認めていない。Apache 2.0は法的ライセンスとして非常に寛容だが、「制限ゼロ」ではなくGoogleの利用ポリシーの範囲内での商業的自由、という理解が正確だ。

それでも企業のオンプレミス展開や組み込み製品開発のハードルは大幅に下がり、オープンソースAIコミュニティにとって大きな前進といえる。

オンデバイスAIへの展開：豊富な推論フレームワーク対応

リリース初日から以下の推論フレームワークに対応している点も、エコシステムへの即時統合を強調している：

vLLM（高スループットサーバー）
SGLang（構造化生成）
Llama.cpp（CPU/ローカル推論）
MLX（Apple Silicon最適化）

まとめ

2026年4月2日リリース、Gemmaシリーズ初のApache 2.0採用で商用利用・改変・再配布の自由度が大幅拡大（Prohibited Use Policyあり）
4サイズ展開（E2B / E4B / 26B MoE / 31B Dense）、全モデルでネイティブ視覚・動画処理に対応
AIME 2026で31Bが89.2%（前世代比4倍以上）、26B MoEでも88.3%を達成
MoEアーキテクチャにより26Bモデルが推論時3.8B相当で動作、密なモデルより高速なトークン生成を実現
Arena AIオープンモデルランキングで31Bが3位、26B MoEが6位を記録
vLLM / Llama.cpp / MLXなど主要推論フレームワークに初日対応

情報ソース：