Image captioning has focused on generalizing to images drawn from the same distribution as the training set, and not to the more challenging problem of generalizing to different distributions of images. Recently, Nikolaus et al. (2019) introduced a dataset to assess compositional generalization in image captioning, where models are evaluated on their ability to describe images with unseen adjective-noun and noun-verb compositions. In this work, we investigate different methods to improve compositional generalization by planning the syntactic structure of a caption. Our experiments show that jointly modeling tokens and syntactic tags enhances generalization in both RNN- and Transformer-based models, while also improving performance on standard metrics.


翻译:图像字幕侧重于对从与培训组相同的分布中提取的图像进行概括化,而不是对推广到不同图像分布的更具挑战性的问题进行概括化。 最近,Nikolaus等人(2019年)引入了一个数据集来评估图像字幕中的成像概括化,在其中,模型被评估其用不可见的形容词-名词和名词-动词组成来描述图像的能力。在这项工作中,我们调查了通过规划一个字幕的合成结构来改进成像化的各种不同方法。我们的实验显示,联合建模符号和合成标记可以加强基于 RNN 和变异器模型的通用化,同时提高标准度的性能。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
已删除
将门创投
5+阅读 · 2018年11月27日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
20+阅读 · 2018年1月17日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
已删除
将门创投
5+阅读 · 2018年11月27日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关论文
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
20+阅读 · 2018年1月17日
Top
微信扫码咨询专知VIP会员