This paper presents a unified Vision-Language Pre-training (VLP) model. The model is unified in that (1) it can be fine-tuned for either vision-language generation (e.g., image captioning) or understanding (e.g., visual question answering) tasks, and (2) it uses a shared multi-layer transformer network for both encoding and decoding, which differs from many existing methods where the encoder and decoder are implemented using separate models. The unified VLP model is pre-trained on a large amount of image-text pairs using the unsupervised learning objectives of two tasks: bidirectional and sequence-to-sequence (seq2seq) masked vision-language prediction. The two tasks differ solely in what context the prediction conditions on. This is controlled by utilizing specific self-attention masks for the shared transformer network. To the best of our knowledge, VLP is the first reported model that achieves state-of-the-art results on both vision-language generation and understanding tasks, as disparate as image captioning and visual question answering, across three challenging benchmark datasets: COCO Captions, Flickr30k Captions, and VQA 2.0. The code and the pre-trained models are available at https://github.com/LuoweiZhou/VLP.


翻译:本文展示了一个统一的视觉语言培训前前(VLP)模型。 该模型是统一的:(1) 该模型可以对视觉语言生成(例如,图像字幕)或理解(例如,视觉问答回答)任务进行微调,以及(2) 该模型使用共享的多层变压网络进行编码和解码,这与使用不同模型执行编码器和解码器的许多现有方法不同。 统一的VLP模型是使用两种任务(即双向和顺序到顺序(seq2seq))的未受监督的学习目标)对大量图像文本进行预先培训的。 两种任务是:双向和顺序到顺序(seq2seq)的蒙蔽的视觉语言预测(例如,视觉问答回答)或理解(例如,视觉问答回答),还有两种任务完全在预测条件的背景中有所不同。 这通过对共享变码器网络使用特定的自我保护面具加以控制。 据我们所知,VLPP是第一个报告在视觉语言生成和理解任务方面实现最新结果的模式,作为不同的图像字幕和视觉解析解析模型, 30 Caps 和Flusurflusional-Cregual-Capational-Cregal-Creduction-Credustrational-Caputal-Creduction-Capturd-Cregal-Cregal-Cregal-Capturd-Cs

8
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
33+阅读 · 2020年1月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
7+阅读 · 2018年11月27日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关VIP内容
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
33+阅读 · 2020年1月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
相关论文
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
7+阅读 · 2018年11月27日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Top
微信扫码咨询专知VIP会员