Recent advances in video generation have enabled the synthesis of videos with strong temporal consistency and impressive visual quality, marking a crucial step toward vision foundation models. To evaluate these video generation models, existing benchmarks primarily focus on factors related to visual perception and understanding, like visual aesthetics, instruction adherence, and temporal coherence. However, the rule-based reasoning capabilities of video generation models remain largely unexplored. Although recent studies have carried out preliminary explorations into whether video models can serve as zero-shot learners, they still lack a fine-grained decomposition of reasoning capabilities and a comprehensive evaluation protocol. To address this gap, we introduce RULER-Bench, a benchmark designed to evaluate the reasoning ability of video generation models from the perspective of cognitive rules. Built upon two fundamental paradigms: text-to-video and image-to-video, RULER-Bench covers 40 representative tasks spanning six rule categories with 622 high-quality annotated instances. For the evaluation of each generated video, we construct a checklist covering four metrics and leverage GPT-o3 to assign scores to each question, achieving 85% alignment with human judgements. Extensive experiments show that the state-of-the-art model achieves only 48.87% on the rule coherence metric, highlighting significant room for improvement in the reasoning capability of next-level video models. We expect that the insight obtained from RULER-Bench will facilitate further development of reasoning-aware video generation, advancing video generation models toward vision foundation intelligence.


翻译:视频生成领域的最新进展使得合成视频在时间一致性和视觉质量方面均取得显著突破,标志着向视觉基础模型迈出了关键一步。为评估这些视频生成模型,现有基准主要关注与视觉感知和理解相关的因素,如视觉美学、指令遵循和时间连贯性。然而,视频生成模型的规则推理能力在很大程度上仍未得到充分探索。尽管近期研究对视频模型能否作为零样本学习器进行了初步探索,但仍缺乏对推理能力的细粒度分解和全面的评估方案。为填补这一空白,我们提出了RULER-Bench,这是一个从认知规则角度评估视频生成模型推理能力的基准。基于文本到视频和图像到视频两种基本范式,RULER-Bench覆盖了六大规则类别下的40个代表性任务,包含622个高质量标注实例。针对每个生成视频的评估,我们构建了涵盖四项指标的检查表,并利用GPT-4o为每个问题分配分数,其与人工判断的一致性达到85%。大量实验表明,当前最先进的模型在规则一致性指标上仅达到48.87%,凸显了下一代视频模型在推理能力方面仍有巨大提升空间。我们期望通过RULER-Bench获得的见解将推动具备推理意识的视频生成技术的进一步发展,促使视频生成模型向视觉基础智能迈进。

0
下载
关闭预览

相关内容

国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员