论文链接:

https://arxiv.org/abs/2012.15409

GitHub链接:

https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO

近年来,预训练技术在计算机视觉和自然语言处理领域均受到广泛关注。在视觉领域,基于图像数据的单模预训练有效提升了视觉特征的提取能力。在自然语言处理领域,基于自监督的预训练语言模型则利用大规模的单模文本数据,显著提升了模型的语言表示能力。为了处理多模场景的任务,多模预训练模型基于多模图文对数据进行预训练,从而有效支持下游的多模任务。然而,受限于图文对数据量,多模预训练模型通用性欠佳。

基于深度学习的AI系统能否像人一样同时学习各类异构模态数据,包括文本、图像等单模数据,以及图文对等多模数据呢?如果能够实现,无疑将进一步拓展深度学习对大规模数据利用的边界,从而进一步提升AI系统的感知与认知能力以及AI算法的通用性。针对这一问题,本文提出统一模态学习UNIMO,同时利用大规模单模文本、单模图像以及多模图文对数据进行联合学习,通过跨模态对比学习方法,有效地对语言知识与视觉知识进行统一表示和相互增强,从而具备同时处理多种单模态和多模态下游任务的能力。

UNIMO在语言理解与生成、多模理解与生成等四类场景共十多个任务上超越主流的文本预训练模型和多模预训练模型,首次验证了通过非平行的文本与图像单模数据,能够让语言知识与视觉知识相互增强。UNIMO也同时登顶了视觉问答VQA和文本推理aNLI权威榜单。

成为VIP会员查看完整内容
27

相关内容

通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充视图之间的一致性来学习表示。对比式自监督学习技术是一类很有前途的方法,它通过学习编码来构建表征,编码使两个事物相似或不同
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
35+阅读 · 2021年5月28日
多模态预训练模型简述
专知会员服务
108+阅读 · 2021年4月27日
专知会员服务
16+阅读 · 2021年4月27日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
专知会员服务
21+阅读 · 2021年3月25日
【CVPR2021】基于反事实推断的视觉问答框架
专知会员服务
26+阅读 · 2021年3月4日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
基于图卷积文本模型的跨模态信息检索
专知
9+阅读 · 2019年8月3日
【AAAI专题】中篇:BRAVE组系列研究进展之“视听模态的生成”
中国科学院自动化研究所
4+阅读 · 2018年1月25日
基于对偶学习的跨领域图片描述生成
PaperWeekly
6+阅读 · 2017年11月7日
【优博微展2017】陈志祥:面向快速视觉检索的非线性哈希学习
清华大学研究生教育
6+阅读 · 2017年8月16日
Arxiv
4+阅读 · 2019年2月18日
VIP会员
相关VIP内容
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
35+阅读 · 2021年5月28日
多模态预训练模型简述
专知会员服务
108+阅读 · 2021年4月27日
专知会员服务
16+阅读 · 2021年4月27日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
专知会员服务
21+阅读 · 2021年3月25日
【CVPR2021】基于反事实推断的视觉问答框架
专知会员服务
26+阅读 · 2021年3月4日
微信扫码咨询专知VIP会员