视频理解任务的核心,如识别、字幕生成和跟踪,是自动检测视频中的对象或行动并分析它们的时间演变。尽管共享一个共同目标,不同的任务经常依赖于不同的模型架构和注释格式。相比之下,自然语言处理受益于一个统一的输出空间,即文本序列,这简化了强大的基础语言模型(如GPT-3)的训练,这些模型使用了广泛的训练语料库。受此启发,我们寻求通过使用语言作为标签并额外引入时间和框标记来统一视频理解任务的输出空间。通过这种方式,多种视频任务可以被构想为视频基础的令牌生成。这使我们能够在一个完全共享的编码器-解码器架构中,遵循一个生成框架,处理各种类型的视频任务,包括分类(如动作识别)、字幕生成(覆盖片段字幕生成、视频问题回答和密集视频字幕生成)和定位任务(如视觉对象跟踪)。通过全面的实验,我们展示了这样一个简单直接的想法是非常有效的,并且能在七个视频基准测试上达到最先进或具有竞争力的结果,为更通用的视频理解提供了一个新颖的视角。代码可在 https://github.com/wangjk666/OmniVid 获取。

成为VIP会员查看完整内容
21

相关内容

【KDD2023教程】用文本编辑模型的快速文本生成, 190页ppt
专知会员服务
25+阅读 · 2023年8月10日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
29+阅读 · 2023年4月25日
【CVPR2023】DiffCollage:用扩散模型并行生成大量内容
专知会员服务
26+阅读 · 2023年4月4日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
21+阅读 · 2021年9月27日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
133+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
56+阅读 · 2023年3月26日
Arxiv
115+阅读 · 2023年3月24日
Arxiv
16+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员