2026年6月18日 00:26
Allen AIが言語誘導3Dモーション予測モデルを公開
MolmoMotion: Language-guided 3D motion forecasting
3行まとめ
- •Allen AIがMolmoMotionを公開した
- •自然言語で3Dモーション予測を制御
- •ロボット・アニメ等への応用が見込まれる
詳細
背景
Allen AI(アレン人工知能研究所)は、同社が開発するオープンソース多モーダルモデル「Molmo」シリーズを拡張した新モデル「MolmoMotion」をHugging Faceで公開した。MolmoMotionは3Dシーン内の物体や人物の動きを、自然言語の指示に基づいて予測・生成することができる技術で、言語理解と3Dモーション理解を統合した点が大きな特徴となっている。
内容
MolmoMotionは、動画フレームや3Dシーンの入力を受け取り、「次にどう動くか」を自然言語の記述に従って予測するモデルだ。「右手を上げる」「ボールをキャッチする」といった言語指示に応じて、対応する3Dモーションを生成できる。従来の3Dモーション予測は固定のルールやシナリオ依存が主流だったが、本モデルは自然言語によるオープンな指示に対応できる点が革新的だ。モデルのウェイトはHugging Face上で公開され、研究者が直接利用・評価できる状態となっている。
今後の影響
この技術はロボティクスにおける自然言語での物体操作指示、3DCGアニメーションのモーション自動生成、自律走行車や人型ロボットの行動予測など、幅広い応用分野での活用が考えられる。現時点では研究段階のモデル公開であり、産業レベルでの即座の応用には追加の開発が必要となる。
なぜ重要か
自然言語で3Dモーションを予測できるオープンソースモデルが公開。ロボット・アニメーション・自律走行分野への応用基盤となる技術。
元記事を読む — Hugging Face Blog