视频问答任务需要根据语言线索的组合语义获取并使用视频中视觉信号的时域和空域特征,从而生成回答。近来,在目标数据集上微调(fine-tuning)预训练模型的范式在多模态任务中取得了非常好的效果,尤其是对视频问答任务的预训练模型。这些现存的多模态学习范式,主要通过从视频中提取空间视觉信息以及运动特征来表示视频内容,并设计了不同的注意力机制(如 question-routed attention 和 co-attention 等)来整合这些特征。然而,这些多模态学习范式都存在一个缺陷:忽略了同一个视频中视频段-文本对(clip-text pair)之间的相关性,而在训练时将每一个视频段-文本对都视为是相互独立的样本。因此,这些多模态学习范式无法很好地利用同一个视频中不同样本之间丰富的上下文语义信息。

为了解决上述问题,微软亚洲研究院的研究员们对如何更好地挖掘并利用这些信息进行了研究。研究员们认为,同视频中的不同视频段应该具有较为相似的全局视频特征语义以及相关联的上下文信息,并且这些信息可以被用于增强网络的学习效果。因此,研究员们提出了一个具有创新性、基于自驱动孪生采样和推理的端到端多模态学习框架 SimSamRea,能够应用在视频问答任务中。

在该框架中,研究员们创新地使用了孪生采样和推理,对同视频中的多个视频段信息进行融合,充分利用视频上下文信息为网络的训练过程提供指导。同时为该框架精心设计了一个推理策略,其主要包括孪生知识生成模块和孪生知识推理模块,可以预测出每个视频段所属的类别,传播并且融合基准段和孪生段之间的相关联信息,再根据模型预测出的每个视频段的类别概率为每个视频段生成软标签。研究员们以令每个视频段的软标签与其预测类别尽可能接近为优化目标,使得同一个视频中的多个视频段的语义特征尽可能相似,从而为框架的训练过程提供指导。

在五个常用的视频问答数据集上进行实验的结果显示,该方法不仅可以在训练过程中为网络提供有效的指导,而且在进行推断时没有任何额外开销(例如计算量、内存消耗、网络参数量),充分验证了 SiaSamRea 框架对视频问答任务的有效性和优越性。

成为VIP会员查看完整内容
6
0

相关内容

[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
15+阅读 · 2021年10月30日
专知会员服务
6+阅读 · 2021年10月4日
【IJCAI2021】​单样本可供性检测
专知会员服务
9+阅读 · 2021年8月27日
专知会员服务
25+阅读 · 2021年8月13日
专知会员服务
31+阅读 · 2021年6月6日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
71+阅读 · 2020年6月26日
【论文分享】ACL 2020 细粒度情感分析方法
深度学习自然语言处理
10+阅读 · 2020年8月20日
【ICML 2020 】小样本学习即领域迁移
专知
3+阅读 · 2020年6月26日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
15+阅读 · 2020年3月24日
Meta-Learning 元学习:学会快速学习
专知
23+阅读 · 2018年12月8日
【AAAI专题】中篇:BRAVE组系列研究进展之“视听模态的生成”
中国科学院自动化研究所
4+阅读 · 2018年1月25日
图上的归纳表示学习
科技创新与创业
20+阅读 · 2017年11月9日
Arxiv
0+阅读 · 2月6日
Arxiv
14+阅读 · 2021年9月21日
Arxiv
3+阅读 · 2018年3月2日
小贴士
相关VIP内容
[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
15+阅读 · 2021年10月30日
专知会员服务
6+阅读 · 2021年10月4日
【IJCAI2021】​单样本可供性检测
专知会员服务
9+阅读 · 2021年8月27日
专知会员服务
25+阅读 · 2021年8月13日
专知会员服务
31+阅读 · 2021年6月6日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
71+阅读 · 2020年6月26日
微信扫码咨询专知VIP会员