Despite the significant advancements of Large Vision-Language Models (LVLMs) on established benchmarks, there remains a notable gap in suitable evaluation regarding their applicability in the emerging domain of long-context streaming video understanding. Current benchmarks for video understanding typically emphasize isolated single-instance text inputs and fail to evaluate the capacity to sustain temporal reasoning throughout the entire duration of video streams. To address these limitations, we introduce SVBench, a pioneering benchmark with temporal multi-turn question-answering chains specifically designed to thoroughly assess the capabilities of streaming video understanding of current LVLMs. We design a semi-automated annotation pipeline to obtain 49,979 Question-Answer (QA) pairs of 1,353 streaming videos, which includes generating QA chains that represent a series of consecutive multi-turn dialogues over video segments and constructing temporal linkages between successive QA chains. Our experimental results, obtained from 14 models in dialogue and streaming evaluations, reveal that while the closed-source GPT-4o outperforms others, most open-source LVLMs struggle with long-context streaming video understanding. We also construct a StreamingChat model, which significantly outperforms open-source LVLMs on our SVBench and achieves comparable performance on diverse vision-language benchmarks. We expect SVBench to advance the research of streaming video understanding by providing a comprehensive and in-depth analysis of current LVLMs. Our benchmark and model can be accessed at https://github.com/sotayang/SVBench.


翻译:尽管大型视觉语言模型(LVLMs)在现有基准测试中取得了显著进展,但在新兴的长上下文流式视频理解领域,其适用性的评估仍存在明显不足。当前的视频理解基准通常侧重于孤立的单实例文本输入,未能充分评估模型在整个视频流持续时间内维持时序推理的能力。为弥补这些局限,我们提出了SVBench,这是一个开创性的基准,包含时序多轮问答链,专门用于全面评估当前LVLMs在流式视频理解方面的能力。我们设计了一个半自动标注流程,从1,353个流式视频中获取了49,979个问答对,包括生成代表视频片段上连续多轮对话的问答链,并构建连续问答链之间的时序关联。通过对14个模型进行对话和流式评估的实验结果表明,尽管闭源的GPT-4o表现优于其他模型,但大多数开源LVLMs在长上下文流式视频理解方面仍存在困难。我们还构建了StreamingChat模型,该模型在我们的SVBench上显著优于开源LVLMs,并在多种视觉语言基准测试中取得了可比性能。我们期望SVBench能通过对当前LVLMs进行全面深入的分析,推动流式视频理解的研究。我们的基准和模型可通过https://github.com/sotayang/SVBench访问。

0
下载
关闭预览

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员