2026年5月7日 19:00
OpenAIがリアルタイム音声モデル3種を新たにAPI公開
Advancing voice intelligence with new models in the API
3行まとめ
- •OpenAIが音声AI新モデル3種をAPI提供開始
- •推論・翻訳・文字起こしをリアルタイム処理
- •GPT-5級の推論力を持つ音声対話が可能に
詳細
概要
OpenAIがリアルタイム音声処理の新モデル3種をAPI経由で開発者向けに公開した。「GPT-Realtime-2」はGPT-5クラスの推論能力を備えた音声対話モデルで、複雑な要求への対応や自然な会話の継続、ツール呼び出しや割り込み・訂正の処理が可能。「GPT-Realtime-Translate」は70以上の入力言語を13の出力言語にリアルタイム翻訳するモデル。「GPT-Realtime-Whisper」は低遅延のストリーミング音声文字起こしモデルで、即時字幕や会議メモなどの用途に対応する。
料金と利用方法
GPT-Realtime-2の料金は音声入力100万トークンあたり32ドル(キャッシュ入力は0.40ドル)、音声出力100万トークンあたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドルに設定されている。3モデルともRealtime APIを通じて利用可能で、Playgroundでテストできる。
意義
従来の単純な音声応答から、聞き取り・推論・翻訳・文字起こし・アクション実行を会話中にこなせる音声インターフェースへの進化を示すリリースとなっている。開発者はCodexを活用して既存アプリへの組み込みや新しい音声体験の構築が可能になった。
なぜ重要か
GPT-5級の推論力を持つ音声モデルが開発者向けに公開され、リアルタイム翻訳・文字起こしを含む音声AIアプリの開発基盤が大きく進化した。
元記事を読む — OpenAI Blog