随着对广义深度模型的迫切需求,许多预训练大模型被提出,如BERT、ViT、GPT等。受这些模型在单一领域(如计算机视觉和自然语言处理)成功的启发,多模态预训练大模型近年来也引起了越来越多的关注。在这项工作中,我们对这些模型进行了全面的综述,希望本文能够提供新的见解,帮助新的研究人员跟踪最前沿的工作。**具体而言,我们首先通过回顾传统深度学习、自然语言过程、计算机视觉和语音中的预训练工作,介绍了多模态预训练的背景;然后,我们介绍了多模态预训练模型(MM-PTMs)的任务定义、主要挑战和优势,并讨论了MM-PTMs,重点是数据、目标、网络架构和知识增强的预训练。**在此之后,我们介绍了用于大规模MM-PTMs验证的下游任务,包括生成、分类和回归任务。我们还对典型下游任务的模型参数和结果进行了可视化和分析。最后,我们指出了本课题可能的研究方向,对今后的工作有所裨益。此外,我们维护了一个持续更新的大规模预训练多模态大模型的论文列表:https://github.com/wangxiao5791509/MultiModal BigModels survey

1. 引言

随着AlexNet[1]在ImageNet比赛[2]上的识别性能的突破,人工智能有了很大的发展。提出了许多具有代表性的深度神经网络,如VGG[3]、ResNet[4]、Inception[5]、LSTM[6]等。研究人员通常为他们的任务收集和注释一些样本,并基于大规模数据集上预训练的基座训练他们的模型(例如用于计算机视觉的ImageNet[2],用于自然语言处理的Glove[7]和Skip-thought vectors[8])。与传统的手工功能相比,许多任务都可以通过这种端到端方式很好地解决,例如目标检测、分割和识别。然而,所得到的深度模型泛化能力仍然有限。收集和注释一个更大的数据集可以在一定程度上解决这些问题,但这个过程是昂贵和乏味的。 为了解决这个问题,Ashish等人提出了Transformer网络[9],该网络在机器翻译任务上取得了新的SOTA(最先进的)性能。之后,在大规模语料上进行自监督预训练,然后在下游任务上进行微调,吸引了越来越多研究者的关注。许多预训练的大模型都是遵循这样的范式提出的,如BERT [10], GPT [11,12], T5 [13], XLNet[14],也引发了CV领域预训练的新研究热点。越来越多的大规模NLP和CV模型通过预训练和微调范式展示了强大的效果,包括ViT[15]和Swin-Transformer[16]。

尽管这一进展为人工智能的发展带来了新的动力,然而,单模态缺陷所带来的问题仍然难以解决。研究人员试图纳入更多模态来弥合深度模型的数据差距。许多基于多模态融合的任务也采用传统的深度学习方式进行探索,如RGB、深度、自然语言、点云、音频、事件流等。许多大规模预训练多模态模型[17-23]被提出,这些模型在下游任务上相继设置新的SOTA,如图1所示。文中对这些工作进行了全面的综述,旨在帮助感兴趣的研究者快速了解该领域的历史和最新发展。

综述组织。文中首先回顾了多模态预训练技术的研究背景,从传统的深度学习范式到单模态任务的预训练,包括自然语言处理、计算机视觉和自动语音处理。然后,在3.1节和3.2节中,重点介绍MM-PTMs,并描述任务定义、关键挑战和好处。在以下子节中还将审查关键组件,包括大规模数据、网络架构、优化目标和知识增强的预训练。为了验证预训练模型的有效性,使用许多下游任务进行定量评估。在第4节中,详细回顾了这些任务的任务定义和评估指标。在第5节中,我们回顾了用于训练的模型参数和硬件,并报告了几个代表性下游任务的实验结果。最后,在第6节中,总结了本综述并提出了多个需要研究的研究方向。这个综述的架构如图2所示。

与现有评论的区别。虽然已经有两项针对MM-PTMs的综述[24,25],但我们的综述与现有综述之间的差异可以总结如下: * 范围:现有的多模态综述[24,25]只关注视觉-语言,然而,多模态信息问题是一个更广泛的研究主题。本文比上述综述更全面,引入了更多的模态,如音频、视频、表格等。 * 时效性:本文介绍了针对多模态预训练提出的最新数据集和算法(从2019年到2022年6月),这是一个很长的综述,同时,他们的工作属于短论文。 * 对MM-PTMs的新见解:通过从不同的角度对现有MM-PTMs进行分类和分析,本文可以帮助读者从详细和高层次的角度掌握最前沿的方法和技术。此外,提出的MM-PTMs研究方向是经过深思熟虑的,将为后续研究提供新的线索。

2. 多模态预训练

**任务的定义。**通常,深度神经网络是在大规模数据集上进行训练的,例如,广泛使用的残差网络[4]是在ImageNet数据集[2]上使用分类任务进行预训练的。相比之下,多模态预训练大型模型通常在大规模训练数据集上进行训练。通常,这些数据由于规模太大而无法标注,因此没有标注标签。另一方面,参数需要达到一定的规模。如图4所示,多模态数据、大模型和计算能力是紧密联系的。总之,多模态预训练通常是指在计算能力的支持下,对海量多模态数据进行无监督的预训练,即具有大量参数的多模态模型。

与单模态预训练大模型相比,MM-PTMs更适合实际应用场景。具体而言,MM-PTMs可以很好地解决多模态协同生成、模态补全、跨域检索等问题。同时,多模态数据包含更多的信息,可以弥补单一模态的缺陷。因此,MM-PTMs有助于提取多模态的共同特征。最近的许多工作表明,MM-PTMs的使用确实带来了额外的先验知识[76-78]。与小规模的多模态模型相比,通过自监督/无监督学习得到的MM-PTMs的泛化能力显著提高。由于一些先验知识仅包含在海量的大数据中,而人工选择的少量标注数据存在偏差,因此小规模模型很难掌握这些知识。

预训练数据集

如表2所示,针对预训练任务提出了许多大规模多模态数据集。在本小节中,我们将简要介绍这些数据集,以帮助读者快速掌握预训练所需的数据信息。

预训练目标

如何设计学习目标是多模态预训练中非常重要的一步。目前,提出了以下学习目标,包括对比损失、生成损失等。

预训练架构

在大规模预训练时代,目前大多数预训练模型的灵感来自Transformer(主要由自注意力层组成)。它最初是在2017年为自然语言处理任务[9]开发的,它在许多下游任务上大幅提高了新的SOTA性能。此类框架也被引入计算机视觉领域,因此,针对各种任务和输入设计统一的网络架构是当前的研究热点。

多层transformer广泛应用于目前许多MM-PTMs中。每个模态的输入首先由独立的编码器提取作为特征嵌入,然后与其他模态进行交互。根据多模态信息融合方式的不同,MM-PTMs可分为单模态和跨模态两类。在本小节中,我们将分别介绍这两种架构。

目前的大规模预训练多模态模型大多采用concate、add、Mergeattention、Co-attention和Cross-attention[132]来实现模态之间的交互学习。以下各段将介绍这些模块。

预训练知识利用

传统的预训练模型逻辑推理能力差,缺乏可解释性。为了缓解这些问题,在预训练模型中直接涉及知识,对数据的深入理解,即使用知识进行预训练,也称为知识增强预训练模型(KEPTMs),如图9所示。

3. 下游任务

在预训练阶段之后,研究人员通常会在许多下游任务中测试他们的模型,以验证这种强大的能力。具体来说,验证采用了生成任务、分类任务、回归任务,下面将讨论这些任务。快速学习作为一种新的学习范式,以修改下游任务来适应预先训练好的大模型为目标,受到越来越多的关注。本部分还对几种有代表性的提示学习算法进行了综述。这些下游任务的概述如图10所示。

成为VIP会员查看完整内容
100

相关内容

视觉语言多模态预训练综述
专知会员服务
113+阅读 · 2022年7月11日
中科院自动化所徐波团队最新《视觉-语言预训练》综述
专知会员服务
65+阅读 · 2022年2月23日
专知会员服务
79+阅读 · 2021年10月15日
多模态预训练模型简述
专知会员服务
108+阅读 · 2021年4月27日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
58+阅读 · 2020年10月27日
中文预训练模型研究进展
专知
7+阅读 · 2022年7月22日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
Arxiv
4+阅读 · 2023年4月16日
A Survey of Large Language Models
Arxiv
319+阅读 · 2023年3月31日
VIP会员
相关资讯
中文预训练模型研究进展
专知
7+阅读 · 2022年7月22日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
微信扫码咨询专知VIP会员