2026年3月26日 22:30
Cohereが文字起こし特化の音声モデルを公開
Cohere launches an open source voice model specifically for transcription
3行まとめ
- •Cohereが文字起こし専用の音声モデルを公開
- •20億パラメータで14言語に対応
- •一般向けGPUでセルフホスト可能
詳細
概要
企業向けAIを手がけるCohereが、文字起こし(音声認識)に特化したオープンソースの音声モデルをリリースした。モデルのパラメータ数は約20億(2B)と比較的軽量で、現時点で14言語をサポートしている。
特徴
このモデルの大きな特徴は、コンシューマー向けの一般的なGPUでも動作できる軽量設計にある点だ。クラウドAPIを使わず自前のサーバーやPCでセルフホストしたいユーザーや企業を主なターゲットとしており、データをクラウドに送信せずにローカル環境で音声文字起こしを実行できる。オープンソースとして公開されているため、自由に利用・改変が可能である。
今後の影響
音声文字起こしの分野ではOpenAIのWhisperが広く普及しているが、Cohereがオープンソースの軽量モデルを投入することで、プライバシーを重視する企業や個人開発者にとって新たな選択肢が加わる形となる。セルフホスト可能な軽量モデルの需要は高まっており、今後の言語対応拡充や精度改善が注目される。
なぜ重要か
軽量設計でセルフホスト可能な文字起こしモデルが増え、プライバシー重視の現場での導入障壁が下がる。