The availability of large-scale image captioning and visual question answering datasets has contributed significantly to recent successes in vision-and-language pre-training. However, these datasets are often collected with overrestrictive requirements inherited from their original target tasks (e.g., image caption generation), which limit the resulting dataset scale and diversity. We take a step further in pushing the limits of vision-and-language pre-training data by relaxing the data collection pipeline used in Conceptual Captions 3M (CC3M) [Sharma et al. 2018] and introduce the Conceptual 12M (CC12M), a dataset with 12 million image-text pairs specifically meant to be used for vision-and-language pre-training. We perform an analysis of this dataset and benchmark its effectiveness against CC3M on multiple downstream tasks with an emphasis on long-tail visual recognition. Our results clearly illustrate the benefit of scaling up pre-training data for vision-and-language tasks, as indicated by the new state-of-the-art results on both the nocaps and Conceptual Captions benchmarks.


翻译:大规模图像字幕和视觉问题解答数据集的可用性极大地促进了近期在视力和语言培训前取得的成功,然而,这些数据集的收集往往具有从最初目标任务(例如图像字幕生成)继承下来的过度限制性要求,限制了由此产生的数据集规模和多样性;我们进一步推进了愿景和语言培训前数据的局限性,放宽了概念3M(CC3M)[Sharma等人,2018年]中使用的数据收集管道,并引入了概念12M(CC12M),这是一套由1 200万对图像文本组成的数据集,专门用于愿景和语言培训前培训。我们对这一数据集进行了分析,并根据CC3M在多个下游任务上的效力进行了基准评估,重点是长期的视觉识别。我们的结果清楚地表明了扩大愿景和语言任务培训前数据规模的好处,正如关于无顶和概念字幕基准的新最新结果所示。

1
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总
数据挖掘入门与实战
3+阅读 · 2018年1月16日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
Arxiv
7+阅读 · 2018年11月27日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员