2026年5月7日 00:44
Google Gemma 4が投機的デコードで3倍高速化
Google's Gemma 4 AI models get 3x speed boost by predicting future tokens
3行まとめ
- •Gemma 4が最大3倍高速に動作
- •投機的デコード技術を採用
- •品質低下なしで推論速度向上
詳細
背景
Googleがオープンソースで公開しているAIモデル「Gemma 4」に、推論速度を最大3倍に高速化する新技術が導入された。従来、大規模言語モデルは1トークンずつ順次生成するため処理に時間がかかることが課題となっていた。
内容
今回採用された「投機的デコード(speculative decoding)」は、将来生成されるトークンを予測して並列処理する手法。小型モデルで先回りして候補を生成し、本体モデルが検証することで、品質を維持したまま処理速度を向上させる。Googleは品質低下なしで最大3倍の高速化を実現したと説明している。
今後の影響
オープンソースモデルの推論コスト削減は、自社サービスへのAI組み込みを検討する企業にとって重要な要素となる。Gemmaシリーズの競争力強化により、Meta Llamaなど他のオープンモデルとの性能競争がさらに激化する。
なぜ重要か
オープンソースAIモデルの推論速度3倍化は運用コストに直結し、企業のAI導入判断に影響する技術進化。
元記事を読む — Ars Technica AI