2026年3月31日 21:23

Qwen3.5-Omni、音声・動画からコード生成を自発習得

Qwen3.5-Omni learned to write code from spoken instructions and video without anyone training it to

3行まとめ

•AlibabaがQwen3.5-Omniを公開
•音声・動画からコード生成を自律習得
•音声タスクでGemini 2.5 Proを上回ると主張

詳細

概要

Alibabaは、テキスト・画像・音声・動画を統合処理するマルチモーダルAIモデル「Qwen3.5-Omni」を公開した。同モデルは音声タスクにおいてGoogleの「Gemini 2.5 Pro」を上回るとAlibabaは主張しており、マルチモーダルAI分野における競争力の高さをアピールしている。

注目の発見

特に注目されるのは、Qwen3.5-Omniが音声による指示と動画入力からコードを生成する能力を、明示的なトレーニングなしに自発的に習得した点である。これはモデルが複数のモダリティを組み合わせることで、開発者が意図していなかった新たな能力を創発的に獲得したことを示しており、マルチモーダルモデルの訓練・設計に関する議論を呼ぶ可能性がある。

今後の影響

音声や動画を通じてコードを生成できる能力は、プログラミングの民主化や開発者の業務効率化に直結する。キーボード入力に依存せず、口頭での指示や画面録画からコードが生成できるようになれば、開発ワークフローの変革につながる。また、訓練していない能力が自然発生するという現象は、大規模マルチモーダルモデルの安全性・制御性の観点からも重要な知見となる。

なぜ重要か

マルチモーダルモデルが意図しない能力を自発習得した事例は、AI開発の安全性と可能性の両面で注目される。

コーディング音声・音楽動画生成新サービス Alibaba

元記事を読む — The Decoder

← ニュース一覧