他力code
ブログ一覧に戻る

2026年4月2日、GoogleはGemma 4を発表した。Gemini 3と同じ研究成果をベースに構築された4つのオープンウェイトモデル群で、今回初めてApache 2.0ライセンスを採用した点が業界に大きな衝撃を与えている。商用利用・改変・再配布の自由度が従来モデルから大幅に広がり、小型オープンソースモデルの常識を塗り替える存在だ。

Gemma 4のラインナップ:4サイズで幅広い用途をカバー

Gemma 4は用途に応じた4つのモデルで構成される。

モデル 実効パラメータ 推論時アクティブ 特徴
E2B 2.3B 2.3B 音声入力対応・モバイル向け
E4B 4.5B 4.5B 音声入力対応・エッジデバイス向け
26B A4B MoE 26B(総数) 3.8B(実動作) 低レイテンシ・高速推論
31B Dense 31B 31B 最高品質・サーバー向け

E2BとE4Bはネイティブ音声入力(音声認識・理解)を搭載し、全モデルが画像・動画をネイティブ処理できる(動画はフレーム列として入力)。多言語対応は140言語以上。コンテキストウィンドウはE2B/E4Bが128K トークン、上位の26B MoEと31B Denseが256K トークンとなっている。

アーキテクチャ革新:MoEと交互アテンション

Mixture of Experts(MoE)の威力

26B MoEモデルは128のエキスパートを持ちながら、推論時にはそのうち一部(合計3.8B相当)のみを活性化する設計だ。これにより「VRAMに収まりさえすれば密なモデルより遥かに速いトークン生成速度」を実現する。

交互アテンション機構

  • ローカルスライディングウィンドウアテンション(512〜1024トークン):短距離の文脈把握に特化
  • グローバル全文脈アテンション:長距離の依存関係を捕捉

この2種類のアテンションをレイヤーごとに交互に配置することで、効率性と精度の両立を実現。また後半レイヤーが前半のKV(キー・バリュー)テンソルを再利用することで、メモリと計算コストをさらに削減している。

上位モデルの256Kコンテキストで精度劣化を防ぐProportional RoPE(位置エンコーディング)の採用も、長文処理精度の向上に貢献している。

ベンチマーク:前世代比4倍の数学力

AIME 2026(数学コンテスト問題)

モデル スコア
Gemma 4 31B Dense 89.2%
Gemma 4 26B MoE(3.8B有効) 88.3%
Gemma 3 27B(前世代) 20.8%

AIME 2026ではGemma 3 27Bの20.8%から89.2%へ大幅改善を記録。さらに驚くべきは26B MoEモデルが31Bに迫るスコアを、わずか3.8Bの有効パラメータで叩き出している点だ。

Arena AIリーダーボード(テキスト)

  • Gemma 4 31B:オープンモデル世界3位
  • Gemma 4 26B MoE:オープンモデル世界6位

いずれも自身の20倍以上のサイズを持つモデルを上回るスコアを記録しており、「バイトあたり最も有能なオープンモデル」というGoogleの主張を裏付けている。

Apache 2.0:オープンソースAIの新基準

従来のオープンウェイトモデルには商用利用のMAU上限や独自の使用制限が付随することが多かった。Gemma 4はGemmaシリーズ初のApache 2.0採用モデルとして、その自由度を大きく引き上げている:

  • MAU上限なし:ユーザー数によるライセンス費用の上乗せがない
  • 商用利用・改変・再配布が可能:製品組み込みやファインチューニングモデルの配布に適したライセンス
  • 派生物への継承義務なし:Apacheライセンスの特性上、派生物を同じライセンスで公開する必要がない

ただし、GoogleはGoogle AI for Developersにて別途Gemma Prohibited Use Policyを設けており、危険・違法・悪意ある用途への使用は認めていない。Apache 2.0は法的ライセンスとして非常に寛容だが、「制限ゼロ」ではなくGoogleの利用ポリシーの範囲内での商業的自由、という理解が正確だ。

それでも企業のオンプレミス展開や組み込み製品開発のハードルは大幅に下がり、オープンソースAIコミュニティにとって大きな前進といえる。

オンデバイスAIへの展開:豊富な推論フレームワーク対応

リリース初日から以下の推論フレームワークに対応している点も、エコシステムへの即時統合を強調している:

  • vLLM(高スループットサーバー)
  • SGLang(構造化生成)
  • Llama.cpp(CPU/ローカル推論)
  • MLX(Apple Silicon最適化)

まとめ

  • 2026年4月2日リリース、Gemmaシリーズ初のApache 2.0採用で商用利用・改変・再配布の自由度が大幅拡大(Prohibited Use Policyあり)
  • 4サイズ展開(E2B / E4B / 26B MoE / 31B Dense)、全モデルでネイティブ視覚・動画処理に対応
  • AIME 2026で31Bが89.2%(前世代比4倍以上)、26B MoEでも88.3%を達成
  • MoEアーキテクチャにより26Bモデルが推論時3.8B相当で動作、密なモデルより高速なトークン生成を実現
  • Arena AIオープンモデルランキングで31Bが3位、26B MoEが6位を記録
  • vLLM / Llama.cpp / MLXなど主要推論フレームワークに初日対応

情報ソース: