The existing image captioning approaches typically train a one-stage sentence decoder, which is difficult to generate rich fine-grained descriptions. On the other hand, multi-stage image caption model is hard to train due to the vanishing gradient problem. In this paper, we propose a coarse-to-fine multi-stage prediction framework for image captioning, composed of multiple decoders each of which operates on the output of the previous stage, producing increasingly refined image descriptions. Our proposed learning approach addresses the difficulty of vanishing gradients during training by providing a learning objective function that enforces intermediate supervisions. Particularly, we optimize our model with a reinforcement learning approach which utilizes the output of each intermediate decoder's test-time inference algorithm as well as the output of its preceding decoder to normalize the rewards, which simultaneously solves the well-known exposure bias problem and the loss-evaluation mismatch problem. We extensively evaluate the proposed approach on MSCOCO and show that our approach can achieve the state-of-the-art performance.


翻译:现有的图像说明方法通常训练一个单阶段的句子解码器,这很难产生丰富的精细描述。 另一方面,多阶段图像说明模型由于渐变的梯度问题而难以培训。 在本文中,我们提议为图像说明提供一个粗到纯多阶段的预测框架,由多个解码器组成,每个解码器在前一个阶段的输出上运作,产生越来越精细的图像描述。我们提议的学习方法通过提供执行中间监督的学习客观功能来解决在培训期间消除梯度的困难。特别是,我们优化我们的模型,采用一种强化学习方法,利用每个中间解码器测试时间推断算法的输出,以及之前的解码器的输出,使奖赏正常化,同时解决众所周知的暴露偏差问题和损失评价错配问题。我们广泛评价了关于最低业务分类法的拟议方法,并表明我们的方法能够达到最先进的业绩。

6
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
MIT新书《强化学习与最优控制》
专知会员服务
269+阅读 · 2019年10月9日
元学习(Meta Learning)最全论文、视频、书籍资源整理
深度学习与NLP
22+阅读 · 2019年6月20日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
7+阅读 · 2019年4月8日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
7+阅读 · 2018年11月27日
Image Captioning based on Deep Reinforcement Learning
Arxiv
11+阅读 · 2018年5月13日
Arxiv
6+阅读 · 2018年4月3日
VIP会员
相关VIP内容
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
MIT新书《强化学习与最优控制》
专知会员服务
269+阅读 · 2019年10月9日
相关论文
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
7+阅读 · 2019年4月8日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
7+阅读 · 2018年11月27日
Image Captioning based on Deep Reinforcement Learning
Arxiv
11+阅读 · 2018年5月13日
Arxiv
6+阅读 · 2018年4月3日
Top
微信扫码咨询专知VIP会员