【ACL2021】基于跨模态对比学习的统一模态理解与生成方法 - 专知VIP

会员服务 ·

3

对比学习 · ACL 2021 ·

2021 年 8 月 5 日

【ACL2021】基于跨模态对比学习的统一模态理解与生成方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文链接：

https://arxiv.org/abs/2012.15409

GitHub链接：

https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO

近年来，预训练技术在计算机视觉和自然语言处理领域均受到广泛关注。在视觉领域，基于图像数据的单模预训练有效提升了视觉特征的提取能力。在自然语言处理领域，基于自监督的预训练语言模型则利用大规模的单模文本数据，显著提升了模型的语言表示能力。为了处理多模场景的任务，多模预训练模型基于多模图文对数据进行预训练，从而有效支持下游的多模任务。然而，受限于图文对数据量，多模预训练模型通用性欠佳。

基于深度学习的AI系统能否像人一样同时学习各类异构模态数据，包括文本、图像等单模数据，以及图文对等多模数据呢？如果能够实现，无疑将进一步拓展深度学习对大规模数据利用的边界，从而进一步提升AI系统的感知与认知能力以及AI算法的通用性。针对这一问题，本文提出统一模态学习UNIMO，同时利用大规模单模文本、单模图像以及多模图文对数据进行联合学习，通过跨模态对比学习方法，有效地对语言知识与视觉知识进行统一表示和相互增强，从而具备同时处理多种单模态和多模态下游任务的能力。

UNIMO在语言理解与生成、多模理解与生成等四类场景共十多个任务上超越主流的文本预训练模型和多模预训练模型，首次验证了通过非平行的文本与图像单模数据，能够让语言知识与视觉知识相互增强。UNIMO也同时登顶了视觉问答VQA和文本推理aNLI权威榜单。

成为VIP会员查看完整内容

29

相关内容

对比学习

通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充视图之间的一致性来学习表示。对比式自监督学习技术是一类很有前途的方法，它通过学习编码来构建表征，编码使两个事物相似或不同

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

【KDD2021 】基于协同对比学习的自监督异质图神经网络

专知会员服务

38+阅读 · 2021年5月28日

多模态预训练模型简述

多模态预训练模型简述

专知会员服务

112+阅读 · 2021年4月27日

【CVPR2021】针对场景图生成语义模糊性的概率性建模

专知会员服务

17+阅读 · 2021年4月27日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【CVPR2021】基于对比预测的缺失视图聚类方法

专知会员服务

22+阅读 · 2021年3月25日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知会员服务

27+阅读 · 2021年3月4日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

基于图卷积文本模型的跨模态信息检索

基于图卷积文本模型的跨模态信息检索

专知

9+阅读 · 2019年8月3日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

机器之心

7+阅读 · 2018年4月14日

【AAAI2018】通过动态融合方式学习多模态词表示，中科院自动化所宗成庆老师团队最新工作

【AAAI2018】通过动态融合方式学习多模态词表示，中科院自动化所宗成庆老师团队最新工作

专知

6+阅读 · 2018年2月19日

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

中国科学院自动化研究所

4+阅读 · 2018年1月25日

基于对偶学习的跨领域图片描述生成

基于对偶学习的跨领域图片描述生成

PaperWeekly

6+阅读 · 2017年11月7日

【优博微展2017】陈志祥：面向快速视觉检索的非线性哈希学习

【优博微展2017】陈志祥：面向快速视觉检索的非线性哈希学习

清华大学研究生教育

7+阅读 · 2017年8月16日

Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

Arxiv

5+阅读 · 2021年4月22日

Self-supervised pre-training and contrastive representation learning for multiple-choice video QA

Self-supervised pre-training and contrastive representation learning for multiple-choice video QA

Arxiv

5+阅读 · 2020年12月14日

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

Arxiv

11+阅读 · 2020年7月31日

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Arxiv

4+阅读 · 2019年12月3日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering

Arxiv

7+阅读 · 2018年5月24日

Visual-textual Attention Driven Fine-grained Representation Learning

Arxiv

3+阅读 · 2018年4月26日

Representation Learning for Visual-Relational Knowledge Graphs

Arxiv

9+阅读 · 2018年3月31日

Visual Relationship Detection with Internal and External Linguistic Knowledge Distillation

Arxiv

3+阅读 · 2017年8月3日

VIP会员

相关主题

相关VIP内容

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

【KDD2021 】基于协同对比学习的自监督异质图神经网络

专知会员服务

38+阅读 · 2021年5月28日

多模态预训练模型简述

多模态预训练模型简述

专知会员服务

112+阅读 · 2021年4月27日

【CVPR2021】针对场景图生成语义模糊性的概率性建模

专知会员服务

17+阅读 · 2021年4月27日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【CVPR2021】基于对比预测的缺失视图聚类方法

专知会员服务

22+阅读 · 2021年3月25日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知会员服务

27+阅读 · 2021年3月4日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

《实现协同自主：从人机协作到多智能体系统》最新190页

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

通信网络智能体白皮书V1.0，61页pdf

相关资讯

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

基于图卷积文本模型的跨模态信息检索

基于图卷积文本模型的跨模态信息检索

专知

9+阅读 · 2019年8月3日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

机器之心

7+阅读 · 2018年4月14日

【AAAI2018】通过动态融合方式学习多模态词表示，中科院自动化所宗成庆老师团队最新工作

【AAAI2018】通过动态融合方式学习多模态词表示，中科院自动化所宗成庆老师团队最新工作

专知

6+阅读 · 2018年2月19日

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

中国科学院自动化研究所

4+阅读 · 2018年1月25日

基于对偶学习的跨领域图片描述生成

基于对偶学习的跨领域图片描述生成

PaperWeekly

6+阅读 · 2017年11月7日

【优博微展2017】陈志祥：面向快速视觉检索的非线性哈希学习

【优博微展2017】陈志祥：面向快速视觉检索的非线性哈希学习

清华大学研究生教育

7+阅读 · 2017年8月16日

相关论文

Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

Arxiv

5+阅读 · 2021年4月22日

Self-supervised pre-training and contrastive representation learning for multiple-choice video QA

Self-supervised pre-training and contrastive representation learning for multiple-choice video QA

Arxiv

5+阅读 · 2020年12月14日

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

Arxiv

11+阅读 · 2020年7月31日

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Arxiv

4+阅读 · 2019年12月3日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering

Arxiv

7+阅读 · 2018年5月24日

Visual-textual Attention Driven Fine-grained Representation Learning

Arxiv

3+阅读 · 2018年4月26日

Representation Learning for Visual-Relational Knowledge Graphs

Arxiv

9+阅读 · 2018年3月31日

Visual Relationship Detection with Internal and External Linguistic Knowledge Distillation

Arxiv

3+阅读 · 2017年8月3日

微信扫码咨询专知VIP会员