Microsoft Research、動画生成に空間記憶
Microsoft Research's Mirage gives video generation a persistent spatial memory that doesn't forget what's around the corner
3行まとめ
- •Mirageがシーン情報を潜在空間で保存
- •計算コスト削減と空間整合性を両立
- •動くオブジェクトの追跡は未対応
詳細
背景
動画生成AIの大きな課題の一つに、長いカメラ移動を行うとシーンの空間整合性が失われる問題がある。カメラが別の方向を向いたり、環境内を長距離移動したりすると、もともとあった物体や場所が変化・消失するなど、リアリティを欠く映像が生成されてしまう。従来のアプローチではピクセルベースの点群(ポイントクラウド)を使ってシーン情報を保持しようとしてきたが、この手法は計算コストとグラフィックスメモリの消費が非常に大きく、実用上の制約となっていた。
内容
Microsoft Researchと複数の大学が共同開発した「Mirage」は、シーン情報をピクセルベースの点群ではなく潜在空間(latent space)に直接保存する新しいアプローチを採用している。この方式により、計算時間とグラフィックスメモリの使用量を大幅に削減しながら、長いカメラ移動を通じて空間的に一貫したシーンを生成できる。世界モデルとして、カメラが別の角度や方向に向いても環境の構造が維持される点が特徴だ。
課題と今後
現時点では、セグメントをまたいで動く物体を確実に追跡することはまだできないという限界がある。この技術は現在も研究段階にあり、既存の商用動画生成サービスへの実装時期は不明だが、動画生成AIが「空間的記憶」を持つことで、映像コンテンツ制作やゲーム開発、仮想環境構築などの分野での活用可能性が広がる研究成果となっている。
なぜ重要か
Microsoft Researchが動画生成の空間整合性問題を解決。長いカメラ移動でも一貫したシーンを生成でき、映像コンテンツ制作の品質向上につながる