Dense video captioning aims to generate text descriptions for all events in an untrimmed video. This involves both detecting and describing events. Therefore, all previous methods on dense video captioning tackle this problem by building two models, i.e. an event proposal and a captioning model, for these two sub-problems. The models are either trained separately or in alternation. This prevents direct influence of the language description to the event proposal, which is important for generating accurate descriptions. To address this problem, we propose an end-to-end transformer model for dense video captioning. The encoder encodes the video into appropriate representations. The proposal decoder decodes from the encoding with different anchors to form video event proposals. The captioning decoder employs a masking network to restrict its attention to the proposal event over the encoding feature. This masking network converts the event proposal to a differentiable mask, which ensures the consistency between the proposal and captioning during training. In addition, our model employs a self-attention mechanism, which enables the use of efficient non-recurrent structure during encoding and leads to performance improvements. We demonstrate the effectiveness of this end-to-end model on ActivityNet Captions and YouCookII datasets, where we achieved 10.12 and 6.58 METEOR score, respectively.


翻译:大量视频字幕的目的是在未剪辑的视频中为所有事件生成文字描述。 这涉及到检测和描述事件。 因此, 浓密视频字幕的所有以往方法都通过为这两个子问题建立两个模型来解决这个问题, 即事件建议和字幕模型。 模型或者单独培训, 或者交替培训。 防止对事件提案的语言描述产生直接影响, 这对于生成准确描述非常重要。 为了解决这个问题, 我们提议了一个用于密集视频字幕的端到端变压器模型。 将视频编码编码为适当的演示。 提议解码器从不同锁定的编码解码器解码成视频事件提案。 说明器使用掩码网络来限制对编码功能上的建议事件的注意。 这个掩码网络将活动提案转换成一个不同的掩码, 以确保建议和字幕在培训期间的一致性。 此外, 我们的模式使用一种自留机制, 使高效的非经常结构在编码和导致性能改进性能。 我们展示了该模型的最终效果, 并分别展示了该模型在10 MS- CADADADA 上实现的效能。

13
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于多头注意力胶囊网络的文本分类模型
专知会员服务
69+阅读 · 2020年5月24日
Transformer文本分类代码
专知会员服务
95+阅读 · 2020年2月3日
Transferring Knowledge across Learning Processes
CreateAMind
10+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
16+阅读 · 2019年4月21日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
Arxiv
7+阅读 · 2019年4月8日
Arxiv
5+阅读 · 2019年4月4日
VIP会员
相关VIP内容
基于多头注意力胶囊网络的文本分类模型
专知会员服务
69+阅读 · 2020年5月24日
Transformer文本分类代码
专知会员服务
95+阅读 · 2020年2月3日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
10+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
16+阅读 · 2019年4月21日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
Top
微信扫码咨询专知VIP会员