题目: IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

摘要: 本文介绍了一种新的用于图像-文本联合嵌入的视觉语言预训练模型图像BERT。我们的模型是一个基于Transformer的模型,它以不同的模态作为输入,对它们之间的关系进行建模。该模型同时进行了四项任务的预训练:掩蔽语言建模(MLM)、掩蔽对象分类(MOC)、掩蔽区域特征回归(MRFR)和图像文本匹配(ITM)。为了进一步提高预训练的质量,我们从Web上收集了一个大规模的弱监督图像-文本(LAIT)数据集。我们首先在这个数据集上对模型进行预训练,然后对概念字幕和SBU字幕进行第二阶段的预训练。实验结果表明,多阶段预训练策略优于单阶段预训练策略。我们还在图像检索和文本检索任务上对预先训练好的ImageBERT模型进行了调优和评估,并在MSCOCO和Flickr30k数据集上获得了最好的效果。

成为VIP会员查看完整内容
0
30

相关内容

弱监督学习:监督学习的一种。大致分3类,第一类是不完全监督(incomplete supervision),即,只有训练集的一个(通常很小的)子集是有标签的,其他数据则没有标签。这种情况发生在各类任务中。例如,在图像分类任务中,真值标签由人类标注者给出的。从互联网上获取巨量图片很容易,然而考虑到标记的人工成本,只有一个小子集的图像能够被标注。第二类是不确切监督(inexact supervision),即,图像只有粗粒度的标签。第三种是不准确的监督(inaccurate supervision),模型给出的标签不总是真值。出现这种情况的常见原因有,图片标注者不小心或比较疲倦,或者某些图片就是难以分类。

交叉熵是图像分类模型监督训练中应用最广泛的损失函数。在这篇论文中,我们提出了一种新的训练方法,在不同架构和数据扩充的监督学习任务中,它的表现始终优于交叉熵。我们修改了批量对比损失,这是最近被证明在自监督学习强大表示是非常有效的。我们能够比交叉熵更有效地利用标签信息。在嵌入空间中,将同一类的点聚在一起,同时将不同类的样本聚在一起。除此之外,我们还利用了关键的成分,如大批量和标准化嵌入,这些已经被证明有利于自监督学习。在ResNet-50和ResNet-200上,我们的交叉熵性能都超过了1%,在使用自动增广数据增强的方法中,我们设置了78.8%的最新水平。这一损失也清楚地表明,在校准和准确性方面,对标准基准的自然损坏具有鲁棒性。与交叉熵相比,我们的监督对比损失更稳定的超参数设置,如优化或数据扩充。

成为VIP会员查看完整内容
0
42

最近的研究表明,预训练文本表示能够显著提高许多自然语言处理任务的性能。训练的中心目标是学习对后续任务有用的文本表示形式。然而,现有的方法是通过最小化代理目标(如语言建模的负日志可能性)来优化的。在这项工作中,我们介绍了一个学习算法,它直接优化模型学习文本表示的能力,以有效地学习下游任务。我们证明了多任务预训练和模型不可知的元学习之间有着内在的联系。BERT中采用的标准多任务学习目标是元训练深度为零的学习算法的一个特例。我们在两种情况下研究了这个问题:无监督的预训练和有监督的预训练,不同的预训练对象验证了我们的方法的通用性。实验结果表明,我们的算法对各种下游任务进行了改进,获得了更好的初始化。

成为VIP会员查看完整内容
0
30

题目: CURL: Contrastive Unsupervised Representations for Reinforcement Learning

摘要:

我们提出了CURL:用于强化学习的对比无监督表示法。CURL使用对比学习从原始像素中提取高级特征,并在提取的特征之上执行off-policy控制。在DeepMind控制套件和Atari游戏中,在100K交互步骤基准测试中,CURL在复杂任务上的表现优于先前基于模型和非模型的基于像素的方法,分别提高了2.8倍和1.6倍的性能。在DeepMind控制套件中,CURL是第一个基于图像的算法,它的效率和性能几乎与使用基于状态的特性的方法不相上下。

成为VIP会员查看完整内容
0
13

题目: Learning Representations For Images With Hierarchical Labels

摘要:

图像分类已经得到了广泛的研究,但是除了传统的图像标签对之外,在使用非常规的外部指导来训练这些模型方面的工作还很有限。在本文中,我们提出了一组利用类标签引起的语义层次信息的方法。在论文的第一部分,我们将标签层次知识注入到任意的分类器中,并通过实验证明,将这些外部语义信息与图像的视觉语义相结合,可以提高整体性能。在这个方向上更进一步,我们使用自然语言中流行的基于保留顺序的嵌入模型来更明确地建模标签-标签和标签-图像的交互,并将它们裁剪到计算机视觉领域来执行图像分类。尽管在本质上与之相反,在新提出的、真实世界的ETH昆虫学收集图像数据集上,注入层次信息的CNN分类器和基于嵌入的模型都优于不可知层次的模型。

成为VIP会员查看完整内容
0
28

题目

跨语言表示学习,Unsupervised Cross-lingual Representation Learning at Scale

关键词

自然语言处理,表示学习,跨语言,人工智能

简介

本文表明,针对多种跨语言转换任务,大规模地对多语言语言模型进行预训练可以显着提高性能。 我们使用超过2 TB的经过过滤的CommonCrawl数据在一百种语言上训练了基于Transformer的屏蔽语言模型。 我们的模型称为XLM-R,在各种跨语言基准测试中,其性能明显优于多语言BERT(mBERT),包括XNLI的平均精度为+ 13.8%,MLQA的平均F1得分为+ 12.3%,NER的平均F1得分为+ 2.1%。 XLM-R在低资源语言上表现特别出色,与以前的XLM模型相比,斯瓦希里语的XNLI准确性提高了11.8%,乌尔都语的准确性提高了9.2%。 我们还对获得这些收益所需的关键因素进行了详细的实证评估,包括(1)积极转移和能力稀释以及(2)大规模资源资源的高低性能之间的权衡。 最后,我们首次展示了在不牺牲每种语言性能的情况下进行多语言建模的可能性。 XLM-R在GLUE和XNLI基准测试中具有强大的单语言模型,因此非常具有竞争力。 我们将公开提供XLM-R代码,数据和模型。

作者

Alexis Conneau, Kartikay Khandelwal等。

成为VIP会员查看完整内容
0
17

题目: Data Augmentation using Pre-trained Transformer Models

简介:

基于语言模型的预训练模型,如BERT,在不同的NLP任务中提供了显著的收益。在本文中,我们研究了不同类型的基于自回归模型(GPT-2)、自编码器模型(BERT)和seq2seq模型(BART)等用于条件数据增强的预训练变压器模型。我们表明,将类标签前置到文本序列提供了一种简单而有效的方法来设置预训练模型的条件,以便进行数据扩充。在三个分类基准上,预先训练的Seq2Seq模型优于其他模型。此外,我们还探讨了不同的基于预训练模型的数据扩充在数据多样性方面是如何不同的,以及这些方法如何很好地保存类标签信息。

成为VIP会员查看完整内容
0
36

Bidirectional Encoder Representations from Transformers (BERT) represents the latest incarnation of pretrained language models which have recently advanced a wide range of natural language processing tasks. In this paper, we showcase how BERT can be usefully applied in text summarization and propose a general framework for both extractive and abstractive models. We introduce a novel document-level encoder based on BERT which is able to express the semantics of a document and obtain representations for its sentences. Our extractive model is built on top of this encoder by stacking several inter-sentence Transformer layers. For abstractive summarization, we propose a new fine-tuning schedule which adopts different optimizers for the encoder and the decoder as a means of alleviating the mismatch between the two (the former is pretrained while the latter is not). We also demonstrate that a two-staged fine-tuning approach can further boost the quality of the generated summaries. Experiments on three datasets show that our model achieves state-of-the-art results across the board in both extractive and abstractive settings. Our code is available at https://github.com/nlpyang/PreSumm

0
5
下载
预览
小贴士
相关VIP内容
专知会员服务
42+阅读 · 2020年4月24日
相关资讯
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
16+阅读 · 2019年8月30日
超越BERT、GPT,微软提出通用预训练模型MASS
机器之心
4+阅读 · 2019年5月10日
3分钟看懂史上最强NLP模型BERT
机器学习算法与Python学习
6+阅读 · 2019年2月27日
干货|多重预训练视觉模型的迁移学习
机器学习算法与Python学习
4+阅读 · 2017年12月25日
相关论文
Shangwen Lv,Yuechen Wang,Daya Guo,Duyu Tang,Nan Duan,Fuqing Zhu,Ming Gong,Linjun Shou,Ryan Ma,Daxin Jiang,Guihong Cao,Ming Zhou,Songlin Hu
9+阅读 · 2020年4月12日
UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation
Huaishao Luo,Lei Ji,Botian Shi,Haoyang Huang,Nan Duan,Tianrui Li,Xilin Chen,Ming Zhou
14+阅读 · 2020年2月15日
UNITER: Learning UNiversal Image-TExt Representations
Yen-Chun Chen,Linjie Li,Licheng Yu,Ahmed El Kholy,Faisal Ahmed,Zhe Gan,Yu Cheng,Jingjing Liu
19+阅读 · 2019年9月25日
Yang Liu,Mirella Lapata
5+阅读 · 2019年8月22日
Zhilin Yang,Zihang Dai,Yiming Yang,Jaime Carbonell,Ruslan Salakhutdinov,Quoc V. Le
13+阅读 · 2019年6月19日
Yiming Cui,Wanxiang Che,Ting Liu,Bing Qin,Ziqing Yang,Shijin Wang,Guoping Hu
11+阅读 · 2019年6月19日
Tianyi Zhang,Varsha Kishore,Felix Wu,Kilian Q. Weinberger,Yoav Artzi
5+阅读 · 2019年4月21日
Sergey Edunov,Alexei Baevski,Michael Auli
3+阅读 · 2019年4月1日
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Jinhyuk Lee,Wonjin Yoon,Sungdong Kim,Donghyeon Kim,Sunkyu Kim,Chan Ho So,Jaewoo Kang
5+阅读 · 2019年2月3日
Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning
Baoyuan Wu,Weidong Chen,Yanbo Fan,Yong Zhang,Jinlong Hou,Junzhou Huang,Wei Liu,Tong Zhang
8+阅读 · 2019年1月7日
Top