2026年6月6日 19:50
常時傾聴する音声AIをオープンソース公開
New open-source voice model listens nonstop and decides every 0.4 seconds whether to speak or stay silent
3行まとめ
- •常時傾聴する音声AIが公開された
- •0.4秒ごとに発話判断する仕組み
- •Apache 2.0で重みとコード公開
詳細
背景
従来の音声AIであるGPT-4oやQwen3.5-Omniは、ユーザーの録音が終わるのを待ってから応答を生成する方式が一般的だった。この待機型の処理は、自然な会話のテンポを損なう要因とされてきた。今回公開された「Audio Interaction」は、こうした制約を解消するオープンソースの音声モデルである。
内容
Audio Interactionは音声を常時聞き取り続け、0.4秒ごとに「発話すべきか沈黙を保つべきか」を自ら判断する。録音の終了を待たずに、翻訳・文字起こし・対話を単一のストリームで処理し、咳などの日常的な物音も拾い上げる。コード、モデルの重み、ダウンロード手順はGitHub上でApache 2.0ライセンスのもとで提供され、学習データも今後公開される予定である。
今後の影響
重みとコードが商用利用も可能なApache 2.0で公開されるため、開発者は自由に音声対話システムへ組み込める。録音終了を待たずに常時処理する設計は、対話の応答速度を高める手法である。学習データも今後公開される予定で、リアルタイム音声AIの研究や応用に利用できる。
なぜ重要か
録音終了を待たないリアルタイム音声処理を商用可能なApache 2.0で公開し、音声対話アプリ開発の選択肢を広げる点が重要。
元記事を読む — The Decoder