Video caption refers to generating a descriptive sentence for a specific short video clip automatically, which has achieved remarkable success recently. However, most of the existing methods focus more on visual information while ignoring the synchronized audio cues. We propose three multimodal deep fusion strategies to maximize the benefits of visual-audio resonance information. The first one explores the impact on cross-modalities feature fusion from low to high order. The second establishes the visual-audio short-term dependency by sharing weights of corresponding front-end networks. The third extends the temporal dependency to long-term through sharing multimodal memory across visual and audio modalities. Extensive experiments have validated the effectiveness of our three cross-modalities fusion strategies on two benchmark datasets, including Microsoft Research Video to Text (MSRVTT) and Microsoft Video Description (MSVD). It is worth mentioning that sharing weight can coordinate visual-audio feature fusion effectively and achieve the state-of-art performance on both BELU and METEOR metrics. Furthermore, we first propose a dynamic multimodal feature fusion framework to deal with the part modalities missing case. Experimental results demonstrate that even in the audio absence mode, we can still obtain comparable results with the aid of the additional audio modality inference module.


翻译:视频标题是指自动生成一个特定短视频短片的描述性句子,该短视频短片最近取得了显著的成功。然而,大多数现有方法更侧重于视觉信息,而忽略同步的音频提示。我们提出了三种多式深度聚合战略,以尽量扩大视觉-视听共振信息的好处。第一个是探讨对跨模式特征从低到高顺序融合的影响。第二个是通过共享相应的前端网络的重量来确定视觉-视听短期依赖性。第三个是通过在视觉和音频模式之间共享多式联运记忆,将时间依赖性扩大到长期。广泛的实验验证了我们三个基准数据集的交叉模式融合战略的有效性,包括微软研究视频到文字(MSVTTT)和微软视频描述(MSVD)。值得一提的是,共享权重可以有效地协调视觉-音频混集,并实现BELU和METEOR指标的状态性能。此外,我们首先提出一个动态的多式聚合框架,以处理缺少部分模式的案例。实验结果显示,即使在音频模式中,我们还可以获得更多的无音频模式。

4
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【泡泡一分钟】CVI-SLAM –协同视觉惯性SLAM
泡泡机器人SLAM
20+阅读 · 2018年12月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
微软发布Visual Studio Tools for AI
AI前线
4+阅读 · 2017年11月20日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
Top
微信扫码咨询专知VIP会员