【CVPR2025】基于大语言模型的视频摘要生成 - 专知VIP

会员服务 ·

9

CVPR 2025 · 大语言模型 · 视频摘要 ·

【CVPR2025】基于大语言模型的视频摘要生成

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着视频内容的指数级增长，如何高效进行导航、搜索与检索成为一项重大挑战，从而对先进的视频摘要技术提出了更高要求。现有的视频摘要方法主要依赖视觉特征和时间动态信息，但往往难以准确捕捉视频内容的语义，导致生成的摘要片段不完整或语义不连贯。

为应对这一挑战，本文提出了一种全新的视频摘要框架，充分利用近年来大语言模型（Large Language Models, LLMs）的强大能力。我们预期，LLMs从海量数据中学习到的丰富知识能够以更贴近人类语义理解与主观判断的方式评估视频帧，从而有效缓解关键帧选取过程中固有的主观性问题。

本方法被命名为基于大语言模型的视频摘要（LLM-based Video Summarization, LLMVS），其核心流程为：首先利用多模态大语言模型（Multi-modal LLM, M-LLM）将视频帧转化为描述性字幕序列；随后，基于每帧在局部上下文中的字幕信息，由LLM评估其重要性分数；最后，通过全局注意力机制在整段视频字幕的上下文中对局部评分进行优化，从而确保摘要既保留视频的细节，也反映其整体叙事结构。实验结果表明，在标准基准测试中，本文提出的方法在性能上显著优于现有方法，充分展示了大语言模型在多媒体内容处理中的巨大潜力。

成为VIP会员查看完整内容

11

相关内容

CVPR 2025

【CVPR2024】使用大型语言模型扩展视频摘要预训练

【CVPR2024】使用大型语言模型扩展视频摘要预训练

专知会员服务

22+阅读 · 2024年4月6日

【WWW2024】多模态查询建议：基于人类反馈的多智能体强化学习

【WWW2024】多模态查询建议：基于人类反馈的多智能体强化学习

专知会员服务

22+阅读 · 2024年2月8日

【ACMMM2021】问题控制的文本感知图像描述生成

专知会员服务

19+阅读 · 2021年9月23日

【SIGIR2021】基于知识图谱的增强连贯性文本规划的评论生成

【SIGIR2021】基于知识图谱的增强连贯性文本规划的评论生成

专知会员服务

31+阅读 · 2021年5月14日

【ICML2020】文本摘要生成模型PEGASUS

【ICML2020】文本摘要生成模型PEGASUS

专知会员服务

35+阅读 · 2020年8月23日

【AAAI2021】基于图神经网络的文本语义匹配算法

【AAAI2021】基于图神经网络的文本语义匹配算法

专知

17+阅读 · 2021年1月30日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

大语言模型

相关VIP内容

【CVPR2024】使用大型语言模型扩展视频摘要预训练

【CVPR2024】使用大型语言模型扩展视频摘要预训练

专知会员服务

22+阅读 · 2024年4月6日

【WWW2024】多模态查询建议：基于人类反馈的多智能体强化学习

【WWW2024】多模态查询建议：基于人类反馈的多智能体强化学习

专知会员服务

22+阅读 · 2024年2月8日

【ACMMM2021】问题控制的文本感知图像描述生成

专知会员服务

19+阅读 · 2021年9月23日

【SIGIR2021】基于知识图谱的增强连贯性文本规划的评论生成

【SIGIR2021】基于知识图谱的增强连贯性文本规划的评论生成

专知会员服务

31+阅读 · 2021年5月14日

【ICML2020】文本摘要生成模型PEGASUS

【ICML2020】文本摘要生成模型PEGASUS

专知会员服务

35+阅读 · 2020年8月23日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】面向真实世界音视联合语音识别的可扩展框架

《通过仿真与开源数据提升战略决策：机遇与局限》最新报告

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

评估大语言模型在科学发现中的作用

相关资讯

【AAAI2021】基于图神经网络的文本语义匹配算法

【AAAI2021】基于图神经网络的文本语义匹配算法

专知

17+阅读 · 2021年1月30日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

相关基金

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员