Segmenting long-form videos into semantically coherent scenes is a fundamental task in large-scale video understanding. Existing encoder-based methods are limited by visual-centric biases, classify each shot in isolation without leveraging sequential dependencies, and lack both narrative understanding and explainability. In this paper, we present Scene-VLM, the first fine-tuned vision-language model (VLM) framework for video scene segmentation. Scene-VLM jointly processes visual and textual cues including frames, transcriptions, and optional metadata to enable multimodal reasoning across consecutive shots. The model generates predictions sequentially with causal dependencies among shots and introduces a context-focus window mechanism to ensure sufficient temporal context for each shot-level decision. In addition, we propose a scheme to extract confidence scores from the token-level logits of the VLM, enabling controllable precision-recall trade-offs that were previously limited to encoder-based methods. Furthermore, we demonstrate that our model can be aligned to generate coherent natural-language rationales for its boundary decisions through minimal targeted supervision. Our approach achieves state-of-the-art performance on standard scene segmentation benchmarks. On MovieNet, for example, Scene-VLM yields significant improvements of +6 AP and +13.7 F1 over the previous leading method.


翻译:将长视频分割为语义连贯的场景是大规模视频理解中的一项基础任务。现有的基于编码器的方法受限于以视觉为中心的偏差,孤立地对每个镜头进行分类而未利用序列依赖性,并且缺乏叙事理解与可解释性。本文提出Scene-VLM,这是首个用于视频场景分割的微调视觉语言模型框架。Scene-VLM联合处理包括视频帧、转录文本及可选元数据在内的视觉与文本线索,实现对连续镜头的多模态推理。该模型通过镜头间的因果依赖关系进行序列化预测,并引入上下文聚焦窗口机制以确保每个镜头级决策具备充分的时序上下文。此外,我们提出一种从VLM词元级逻辑值中提取置信度分数的方案,实现了以往仅限基于编码器方法才具备的可控精确率-召回率权衡。进一步地,我们证明通过极少量针对性监督,本模型能够生成与其边界决策相一致的连贯自然语言推理依据。该方法在标准场景分割基准测试中取得了最先进的性能。以MovieNet为例,Scene-VLM相比先前领先方法实现了+6 AP与+13.7 F1的显著提升。

0
下载
关闭预览

相关内容

VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员