Existing image captioning methods just focus on understanding the relationship between objects or instances in a single image, without exploring the contextual correlation existed among contextual image. In this paper, we propose Dual Graph Convolutional Networks (Dual-GCN) with transformer and curriculum learning for image captioning. In particular, we not only use an object-level GCN to capture the object to object spatial relation within a single image, but also adopt an image-level GCN to capture the feature information provided by similar images. With the well-designed Dual-GCN, we can make the linguistic transformer better understand the relationship between different objects in a single image and make full use of similar images as auxiliary information to generate a reasonable caption description for a single image. Meanwhile, with a cross-review strategy introduced to determine difficulty levels, we adopt curriculum learning as the training strategy to increase the robustness and generalization of our proposed model. We conduct extensive experiments on the large-scale MS COCO dataset, and the experimental results powerfully demonstrate that our proposed method outperforms recent state-of-the-art approaches. It achieves a BLEU-1 score of 82.2 and a BLEU-2 score of 67.6. Our source code is available at {\em \color{magenta}{\url{https://github.com/Unbear430/DGCN-for-image-captioning}}}.


翻译:现有图像字幕方法只是侧重于了解单一图像中对象或实例之间的关系,而没有探索背景图像之间存在的关联关系。 在本文中,我们提议使用变压器和课程学习来为图像字幕提供变压器和课程说明。特别是,我们不仅使用目标级GCN来在一个图像中捕捉物体空间关系的对象,而且还采用图像级GCN来捕捉类似图像提供的特征信息。有了设计良好的双GCN,我们就可以使语言变压器更好地了解单一图像中不同对象之间的关系,并充分利用类似图像作为辅助信息,为单一图像生成合理的字幕描述。同时,通过交叉审查战略来确定困难级别,我们不仅将课程学习作为培训战略,以提高我们拟议模型的稳健性和普遍性,我们还对大型MS COCO数据集进行广泛的实验,实验结果有力地证明我们拟议的方法超越了最近的州-艺术方法。 它在BLEU-1为82/2和BLEO+O的BBBBS&BSBSQR

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【阿尔托大学】图神经网络,Graph Neural Networks,附60页ppt
专知会员服务
178+阅读 · 2020年4月26日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Image Captioning 36页最新综述, 161篇参考文献
专知
89+阅读 · 2018年10月23日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
已删除
将门创投
3+阅读 · 2017年11月3日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
7+阅读 · 2018年11月27日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Image Captioning based on Deep Reinforcement Learning
Arxiv
21+阅读 · 2018年5月23日
VIP会员
相关VIP内容
【阿尔托大学】图神经网络,Graph Neural Networks,附60页ppt
专知会员服务
178+阅读 · 2020年4月26日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Image Captioning 36页最新综述, 161篇参考文献
专知
89+阅读 · 2018年10月23日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
已删除
将门创投
3+阅读 · 2017年11月3日
Top
微信扫码咨询专知VIP会员