Building correspondences across different modalities, such as video and language, has recently become critical in many visual recognition applications, such as video captioning. Inspired by machine translation, recent models tackle this task using an encoder-decoder strategy. The (video) encoder is traditionally a Convolutional Neural Network (CNN), while the decoding (for language generation) is done using a Recurrent Neural Network (RNN). Current state-of-the-art methods, however, train encoder and decoder separately. CNNs are pretrained on object and/or action recognition tasks and used to encode video-level features. The decoder is then optimised on such static features to generate the video's description. This disjoint setup is arguably sub-optimal for input (video) to output (description) mapping. In this work, we propose to optimise both encoder and decoder simultaneously in an end-to-end fashion. In a two-stage training setting, we first initialise our architecture using pre-trained encoders and decoders -- then, the entire network is trained end-to-end in a fine-tuning stage to learn the most relevant features for video caption generation. In our experiments, we use GoogLeNet and Inception-ResNet-v2 as encoders and an original Soft-Attention (SA-) LSTM as a decoder. Analogously to gains observed in other computer vision problems, we show that end-to-end training significantly improves over the traditional, disjoint training process. We evaluate our End-to-End (EtENet) Networks on the Microsoft Research Video Description (MSVD) and the MSR Video to Text (MSR-VTT) benchmark datasets, showing how EtENet achieves state-of-the-art performance across the board.


翻译:在视频和语言等许多视觉识别应用程序中,建设不同模式的通信,例如视频和语言,最近变得至关重要。在机器翻译的启发下,最近的一些模型使用编码器解码器战略来完成这项任务。(视频)编码器传统上是一个 Convolual神经网络(CNN),而(语言生成)解码(语言生成)则使用经常性神经网络(RNNN)进行。但是,目前最先进的编码和解码器是分开的。CNN在传统对象和(或)动作识别任务上已经预先接受过培训,并用来编码视频层面的功能。随后,解码器将优化在这种静态功能上生成视频描述。这种脱节的设置可以说是用于输入(视频)到输出(描述)映射(解码器)的次最佳功能。我们提议在终端到终端的服务器上优化解码和解码器。我们首先使用预设的解码器解码器和解码器,然后,整个网络将经过培训,将最终显示我们的数据显示为升级的版本。

6
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
166+阅读 · 2019年10月11日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
计算机视觉领域顶会CVPR 2018 接受论文列表
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关VIP内容
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
166+阅读 · 2019年10月11日
Top
微信扫码咨询专知VIP会员