2026年5月16日 19:55

新ベンチマーク、AI動画生成の論理推論力不足を露呈

New benchmark confirms AI video generators look stunning but still can't reason about the world

3行まとめ

動画生成AIは映像品質では飛躍的に向上したが、物理法則や論理整合性の理解はまだ十分でない。この課題を定量評価するため、新ベンチマーク「WorldReasonBench」が公開された。画質ではなく、物理的・論理的にもっともらしい動画を生成できるかを測る指標である。

評価ではByteDanceのSeedance 2.0が首位となり、Veo 3.1、Sora 2が続いた。商用モデルはオープンソース版のおよそ2倍のスコアを記録した一方で、論理推論カテゴリは全モデルで最も難しい領域として大差で残された。

今回の結果は、現行モデルが単なるピクセル生成器に留まり、真の「ワールドモデル」へは到達していない現実を示す。映像のリアルさと、世界を理解する能力の間にある溝が、今後の研究開発の焦点となる。

動画生成AIの実力差と限界が定量化され、業務でのモデル選定や活用範囲の判断材料になる。