2026年6月11日 04:29
Google、4倍高速DiffusionGemma公開
Google DeepMind releases DiffusionGemma, a model that runs local AI 4x faster
3行まとめ
- •GoogleがDiffusionGemmaを公開
- •拡散方式でテキスト生成を最大4倍高速化
- •26B MoEでApache 2.0、ローカル実行可能
詳細
背景
Google DeepMindは2026年6月、テキスト生成に拡散(diffusion)方式を採用した実験的なオープンモデル「DiffusionGemma」を公開した。拡散方式は画像生成で広く使われてきた技術で、1トークンずつ順番に出力する従来の自己回帰方式とは異なり、テキストのブロック全体を並列に生成する。
内容
DiffusionGemmaは総パラメータ26BのMoE(専門家混合)構成で、推論時に活性化するのは3.8Bのみ。256トークンのブロックを一度に生成する仕組みで、従来比最大4倍の高速化を実現し、NVIDIA H100では毎秒1,000トークン超、コンシューマー向けのRTX 5090でも毎秒700トークン超を出力する。量子化すれば18GBのVRAMに収まり、ハイエンドの家庭用GPUでローカル実行できる。ライセンスは商用利用可能なApache 2.0。
今後の影響
ブロック単位で全トークンが相互参照しながら生成されるため、文中の穴埋めやコードの整形、生成途中での自己修正を得意とする。画像生成で実績のある拡散方式が実用水準の速度でテキストに展開されたことで、自己回帰一辺倒だったLLMの生成方式に新たな選択肢が加わり、ローカルAI活用の幅が広がる。
なぜ重要か
拡散方式によるテキスト生成のオープンモデルが登場し、ローカルAIが最大4倍高速になる。Apache 2.0で商用利用も可能。
元記事を読む — Ars Technica AI