2026年4月2日、GoogleはGemma 4を発表した。Gemini 3と同じ研究成果をベースに構築された4つのオープンウェイトモデル群で、今回初めてApache 2.0ライセンスを採用した点が業界に大きな衝撃を与えている。商用利用・改変・再配布の自由度が従来モデルから大幅に広がり、小型オープンソースモデルの常識を塗り替える存在だ。
Gemma 4のラインナップ:4サイズで幅広い用途をカバー
Gemma 4は用途に応じた4つのモデルで構成される。
| モデル | 実効パラメータ | 推論時アクティブ | 特徴 |
|---|---|---|---|
| E2B | 2.3B | 2.3B | 音声入力対応・モバイル向け |
| E4B | 4.5B | 4.5B | 音声入力対応・エッジデバイス向け |
| 26B A4B MoE | 26B(総数) | 3.8B(実動作) | 低レイテンシ・高速推論 |
| 31B Dense | 31B | 31B | 最高品質・サーバー向け |
E2BとE4Bはネイティブ音声入力(音声認識・理解)を搭載し、全モデルが画像・動画をネイティブ処理できる(動画はフレーム列として入力)。多言語対応は140言語以上。コンテキストウィンドウはE2B/E4Bが128K トークン、上位の26B MoEと31B Denseが256K トークンとなっている。
アーキテクチャ革新:MoEと交互アテンション
Mixture of Experts(MoE)の威力
26B MoEモデルは128のエキスパートを持ちながら、推論時にはそのうち一部(合計3.8B相当)のみを活性化する設計だ。これにより「VRAMに収まりさえすれば密なモデルより遥かに速いトークン生成速度」を実現する。
交互アテンション機構
- ローカルスライディングウィンドウアテンション(512〜1024トークン):短距離の文脈把握に特化
- グローバル全文脈アテンション:長距離の依存関係を捕捉
この2種類のアテンションをレイヤーごとに交互に配置することで、効率性と精度の両立を実現。また後半レイヤーが前半のKV(キー・バリュー)テンソルを再利用することで、メモリと計算コストをさらに削減している。
上位モデルの256Kコンテキストで精度劣化を防ぐProportional RoPE(位置エンコーディング)の採用も、長文処理精度の向上に貢献している。
ベンチマーク:前世代比4倍の数学力
AIME 2026(数学コンテスト問題)
| モデル | スコア |
|---|---|
| Gemma 4 31B Dense | 89.2% |
| Gemma 4 26B MoE(3.8B有効) | 88.3% |
| Gemma 3 27B(前世代) | 20.8% |
AIME 2026ではGemma 3 27Bの20.8%から89.2%へ大幅改善を記録。さらに驚くべきは26B MoEモデルが31Bに迫るスコアを、わずか3.8Bの有効パラメータで叩き出している点だ。
Arena AIリーダーボード(テキスト)
- Gemma 4 31B:オープンモデル世界3位
- Gemma 4 26B MoE:オープンモデル世界6位
いずれも自身の20倍以上のサイズを持つモデルを上回るスコアを記録しており、「バイトあたり最も有能なオープンモデル」というGoogleの主張を裏付けている。
Apache 2.0:オープンソースAIの新基準
従来のオープンウェイトモデルには商用利用のMAU上限や独自の使用制限が付随することが多かった。Gemma 4はGemmaシリーズ初のApache 2.0採用モデルとして、その自由度を大きく引き上げている:
- MAU上限なし:ユーザー数によるライセンス費用の上乗せがない
- 商用利用・改変・再配布が可能:製品組み込みやファインチューニングモデルの配布に適したライセンス
- 派生物への継承義務なし:Apacheライセンスの特性上、派生物を同じライセンスで公開する必要がない
ただし、GoogleはGoogle AI for Developersにて別途Gemma Prohibited Use Policyを設けており、危険・違法・悪意ある用途への使用は認めていない。Apache 2.0は法的ライセンスとして非常に寛容だが、「制限ゼロ」ではなくGoogleの利用ポリシーの範囲内での商業的自由、という理解が正確だ。
それでも企業のオンプレミス展開や組み込み製品開発のハードルは大幅に下がり、オープンソースAIコミュニティにとって大きな前進といえる。
オンデバイスAIへの展開:豊富な推論フレームワーク対応
リリース初日から以下の推論フレームワークに対応している点も、エコシステムへの即時統合を強調している:
- vLLM(高スループットサーバー)
- SGLang(構造化生成)
- Llama.cpp(CPU/ローカル推論)
- MLX(Apple Silicon最適化)
まとめ
- 2026年4月2日リリース、Gemmaシリーズ初のApache 2.0採用で商用利用・改変・再配布の自由度が大幅拡大(Prohibited Use Policyあり)
- 4サイズ展開(E2B / E4B / 26B MoE / 31B Dense)、全モデルでネイティブ視覚・動画処理に対応
- AIME 2026で31Bが89.2%(前世代比4倍以上)、26B MoEでも88.3%を達成
- MoEアーキテクチャにより26Bモデルが推論時3.8B相当で動作、密なモデルより高速なトークン生成を実現
- Arena AIオープンモデルランキングで31Bが3位、26B MoEが6位を記録
- vLLM / Llama.cpp / MLXなど主要推論フレームワークに初日対応
情報ソース: