2026年4月3日 01:26
MicrosoftのMAI-Transcribe-1、2.5倍高速化
Microsoft's MAI-Transcribe-1 runs 2.5x faster than its predecessor at $0.36 per audio hour
3行まとめ
- •Microsoft新音声認識モデルを発表
- •25言語対応・前世代比2.5倍高速
- •1時間あたり約54円の低コスト
詳細
概要
Microsoftは新しい音声認識モデル「MAI-Transcribe-1」を発表した。25言語に対応し、背景ノイズが混じる環境でも高精度な文字起こしを実現する。処理速度は前世代モデルと比較して2.5倍高速化されており、価格は音声1時間あたり0.36ドル(約54円)に設定されている。
技術的な特徴
MAI-Transcribe-1は騒音環境下でも安定した認識精度を維持する点が特長とされており、会議録音や現場音声など実用シーンへの適用が想定される。Microsoftはすでにこのモデルを自社製品に組み込んでおり、実運用レベルで検証済みの技術として提供される形となっている。コスト面でも競合サービスと比較して優位性があり、大量の音声データを処理するビジネス用途への導入が見込まれる。
今後の影響
音声認識技術はコールセンター、医療記録、会議の議事録作成など幅広いビジネス分野で活用されており、低コストかつ高速なモデルの登場は導入障壁を下げる効果がある。Microsoftが自社製品に先行統合していることで、Microsoft 365やTeamsなどのユーザーが恩恵を受ける可能性がある。競合するOpenAIのWhisperやGoogleのSpeech-to-Text APIとの価格・性能競争が一層激化することも予想される。
なぜ重要か
低コスト・高速な音声認識モデルの登場により、業務での文字起こし自動化コストが大幅に下がる。Microsoft製品ユーザーは即座に恩恵を受ける。