随着视频内容的指数级增长,如何高效进行导航、搜索与检索成为一项重大挑战,从而对先进的视频摘要技术提出了更高要求。现有的视频摘要方法主要依赖视觉特征和时间动态信息,但往往难以准确捕捉视频内容的语义,导致生成的摘要片段不完整或语义不连贯。

为应对这一挑战,本文提出了一种全新的视频摘要框架,充分利用近年来大语言模型(Large Language Models, LLMs)的强大能力。我们预期,LLMs从海量数据中学习到的丰富知识能够以更贴近人类语义理解与主观判断的方式评估视频帧,从而有效缓解关键帧选取过程中固有的主观性问题。

本方法被命名为基于大语言模型的视频摘要(LLM-based Video Summarization, LLMVS),其核心流程为:首先利用多模态大语言模型(Multi-modal LLM, M-LLM)将视频帧转化为描述性字幕序列;随后,基于每帧在局部上下文中的字幕信息,由LLM评估其重要性分数;最后,通过全局注意力机制在整段视频字幕的上下文中对局部评分进行优化,从而确保摘要既保留视频的细节,也反映其整体叙事结构。 实验结果表明,在标准基准测试中,本文提出的方法在性能上显著优于现有方法,充分展示了大语言模型在多媒体内容处理中的巨大潜力。

成为VIP会员查看完整内容
11

相关内容

【CVPR2024】使用大型语言模型扩展视频摘要预训练
专知会员服务
22+阅读 · 2024年4月6日
专知会员服务
19+阅读 · 2021年9月23日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
35+阅读 · 2020年8月23日
【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【CVPR2024】使用大型语言模型扩展视频摘要预训练
专知会员服务
22+阅读 · 2024年4月6日
专知会员服务
19+阅读 · 2021年9月23日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
35+阅读 · 2020年8月23日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
相关论文
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Arxiv
25+阅读 · 2023年3月17日
微信扫码咨询专知VIP会员