2026年4月3日 01:00
Gemini APIに新推論プランが登場
New ways to balance cost and reliability in the Gemini API
3行まとめ
- •GoogleがGemini APIに2つの新プランを追加
- •低コストのFlexと高信頼のPriorityを提供
- •コストとレイテンシのバランスを柔軟に選択可能
詳細
背景
GoogleはGemini APIの利用者がコストとレイテンシ(応答速度)をより柔軟にコントロールできるよう、新たな推論ティア(処理レベル)を導入した。これまで一律だったAPI処理の仕組みを見直し、利用シーンに応じた選択肢を提供する形へと移行する。
内容
新たに追加されるのは「Flex」と「Priority」の2つのプランである。Flexは低コストを重視したプランで、処理速度よりも料金を抑えたいバッチ処理や非リアルタイムのユースケースに適している。一方、Priorityは高い信頼性と低遅延を優先したプランで、ユーザーと直接やり取りするリアルタイムアプリケーションや、応答速度が重要なビジネス用途に向いている。開発者はワークロードの性質に応じてこれら2つを使い分けることで、無駄なコストを削減しつつ必要な場面では高いパフォーマンスを確保できる。
今後の影響
このティア制の導入により、企業はGemini APIの利用コストを最適化しやすくなる。たとえば、夜間のデータ処理や大量テキスト分析にはFlexを、顧客向けチャットボットや即時応答が求められるサービスにはPriorityを割り当てるといった運用が可能になる。AIサービスのコスト管理が課題となっているビジネスにとって、実用的なコスト削減手段となる。
なぜ重要か
Gemini APIにコスト重視・速度重視の2プランが追加され、企業はユースケースに応じたAPI利用コストの最適化が可能になる。