An ideal description for a given video should fix its gaze on salient and representative content, which is capable of distinguishing this video from others. However, the distribution of different words is unbalanced in video captioning datasets, where distinctive words for describing video-specific salient objects are far less than common words such as 'a' 'the' and 'person'. The dataset bias often results in recognition error or detail deficiency of salient but unusual objects. To address this issue, we propose a novel learning strategy called Information Loss, which focuses on the relationship between the video-specific visual content and corresponding representative words. Moreover, a framework with hierarchical visual representations and an optimized hierarchical attention mechanism is established to capture the most salient spatial-temporal visual information, which fully exploits the potential strength of the proposed learning strategy. Extensive experiments demonstrate that the ingenious guidance strategy together with the optimized architecture outperforms state-of-the-art video captioning methods on MSVD with CIDEr score 87.5, and achieves superior CIDEr score 47.7 on MSR-VTT. We also show that our Information Loss is generic which improves various models by significant margins.


翻译:给定视频的理想描述应该能够调整对突出和有代表性内容的视线,从而能够区分该视频与其他视频。然而,在视频字幕数据集中,不同词的分布不平衡,描述视频特定突出对象的独特词远不如描述“a”`the'和“person”等常见词。数据集偏差往往导致识别错误或细微突出但不寻常对象的缺陷。为解决这一问题,我们提议了一个名为“信息损失”的新学习战略,其重点是视频特定视频内容和相应的有代表性词之间的关系。此外,还建立了一个带有分级视觉表现和优化的上层关注机制的框架,以捕捉最突出的空间-时空视觉信息,充分利用了拟议学习战略的潜在力量。广泛的实验表明,巧妙的指导战略与优化的架构相比,在MSVD上与CIDer分数为87.5的高级视频说明方法相形异。我们还表明,我们的信息损失是通用的,通过显著的距离改进了各种模型。

0
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
6+阅读 · 2019年4月4日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Arxiv
7+阅读 · 2018年4月24日
VIP会员
Top
微信扫码咨询专知VIP会员