2026年4月3日 10:01

MicrosoftがAIモデル3種を新公開

3行まとめ

•Microsoftが新AIモデル3種を発表
•音声文字起こし・音声生成・画像生成に対応
•MAIブランドの自社モデル拡充が進む

詳細

発表内容

Microsoftは新たに3つのAIモデルをリリースすると発表した。音声を文字起こしする「MAI-Transcribe-1」、音声を生成する「MAI-Voice-1」、そして第2世代の画像生成モデル「MAI-Image-2」の3種類で、それぞれ異なるマルチメディア処理に対応している。

モデルの特徴

MAI-Transcribe-1は音声データをテキストに変換する機能を持ち、業務での議事録作成や音声コンテンツの文字化などへの活用が想定される。MAI-Voice-1はテキストから自然な音声を生成するモデルで、MAI-Image-2は前世代から改良された画像生成能力を備えた第2世代モデルとなっている。いずれも「MAI」ブランドを冠したMicrosoft独自開発のモデルシリーズに位置づけられる。

今後の展開

Microsoftはこれまで外部モデル（OpenAIなど）への依存が目立っていたが、MAIブランドを通じた自社モデルのラインナップを着実に拡充している。音声・画像・テキストという複数のモダリティをカバーすることで、Azure AIサービスや自社製品群への統合が進み、競合するGoogle・Anthropicなどに対するモデル競争での存在感を高める動きと見られる。

なぜ重要か

MicrosoftがMAIブランドで音声・画像モデルを拡充し、外部依存からの脱却を加速している。Azure利用企業には今後のAIサービス選定に影響する動向だ。

Microsoft 音声・音楽画像生成新サービスアップデート

元記事を読む — CNET Japan

← ニュース一覧