Descriptive region features extracted by object detection networks have played an important role in the recent advancements of image captioning. However, they are still criticized for the lack of contextual information and fine-grained details, which in contrast are the merits of traditional grid features. In this paper, we introduce a novel Dual-Level Collaborative Transformer (DLCT) network to realize the complementary advantages of the two features. Concretely, in DLCT, these two features are first processed by a novelDual-way Self Attenion (DWSA) to mine their intrinsic properties, where a Comprehensive Relation Attention component is also introduced to embed the geometric information. In addition, we propose a Locality-Constrained Cross Attention module to address the semantic noises caused by the direct fusion of these two features, where a geometric alignment graph is constructed to accurately align and reinforce region and grid features. To validate our model, we conduct extensive experiments on the highly competitive MS-COCO dataset, and achieve new state-of-the-art performance on both local and online test sets, i.e., 133.8% CIDEr-D on Karpathy split and 135.4% CIDEr on the official split. Code is available at https://github.com/luo3300612/image-captioning-DLCT.


翻译:由物体探测网络绘制的描述性区域特征在最近的图像说明进展中发挥了重要作用,然而,这些特征仍然受到批评,因为缺乏背景信息和细细细节,而传统网格特征的优点与此形成鲜明对比。在本文件中,我们引入了一个新的双级协作变异器(DLCT)网络,以实现这两个特征的互补优势。具体地说,在DLCT中,这两个特征首先由一个新型的Dual-way SideAttenion(DWSA)处理,以挖掘其内在特性,其中还引入了全面关联关注部分,以嵌入几何信息。此外,我们提议了一个本地和在线测试集,即133.8%的CIDE-ConserCrostical 注意模块,以解决这两个特征直接融合造成的语义性噪音。在这两个特征的构造中,一个几何级调整图可以准确调整和加强区域和网格特征。为了验证我们的模型,我们在高竞争力的MS-CO61数据集上进行广泛的实验,并在本地和在线测试集上实现新的状态-艺术性表现,即:13.8%的CIDER-Dreaction Dreal Codement on CideL.

1
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
边缘机器学习,21页ppt
专知会员服务
78+阅读 · 2021年6月21日
【WWW2021】场矩阵分解机推荐系统
专知会员服务
31+阅读 · 2021年2月27日
【Yoshua Bengio】因果表示学习,附视频与72页ppt
专知会员服务
75+阅读 · 2021年1月7日
专知会员服务
109+阅读 · 2020年3月12日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
4+阅读 · 2019年8月7日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
7+阅读 · 2018年11月27日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
21+阅读 · 2018年5月23日
VIP会员
相关VIP内容
边缘机器学习,21页ppt
专知会员服务
78+阅读 · 2021年6月21日
【WWW2021】场矩阵分解机推荐系统
专知会员服务
31+阅读 · 2021年2月27日
【Yoshua Bengio】因果表示学习,附视频与72页ppt
专知会员服务
75+阅读 · 2021年1月7日
专知会员服务
109+阅读 · 2020年3月12日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关论文
Arxiv
4+阅读 · 2019年8月7日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
7+阅读 · 2018年11月27日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
21+阅读 · 2018年5月23日
Top
微信扫码咨询专知VIP会员