学习视觉和语言的多粒度对齐？字节提出新多模态预训练方法 X-VLM：代码已开源！

2022 年 2 月 27 日 PaperWeekly

写在前面

视觉语言预训练提高了许多视觉语言任务的性能。但是，现有的多数预训练方法依赖目标检测器（object detectors）提取基于物体的视觉特征，以此学习细粒度的视觉和语言对齐，例如物体（object）级别。然而，这种方法存在识别视觉概念有限、图像编码上下文信息丢失和计算效率低下的问题。

在本文中，字节跳动人工智能实验室提出了 X-VLM，以统一的方法学习多粒度的视觉和语言对齐，不依赖目标检测方法且不局限于学习图片级别或物体级别的对齐。 该方法在广泛的视觉语言任务上获得了最先进的结果，例如：图像文本检索（image-text retrieval）、视觉问答（VQA）、视觉推理（NLVR）、视觉定位（visual grounding）、图片描述生成（image captioning）。

论文标题：

Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

论文链接：

https://arxiv.org/abs/2111.08276

代码链接：

https://github.com/zengyan-97/X-VLM

研究背景

▲ 图1：现有两类的方法（a, b）和X-VLM（c）

现有的多模态预训练模型大致分为两类：1）依赖目标检测器提取基于物体的视觉特征，以此学习细粒度的视觉和语言对齐，如图 1 中（a）。这些方法要么直接利用预先训练的目标检测器，要么将目标检测过程合并到多模态预训练中；2）用 CNN 或者视觉 Transformer 编码整张图片，直接学习文本和图片特征之间的粗粒度对齐，如图 1（b）。

这两种方法都存在问题。首先，基于目标检测的方法会识别图片中所有可能的物体，其中不乏一些与配对文本无关的。此外，这种方法所提取的基于物体的视觉特征可能会丢失物体之间的信息（可以认为是一种上下文信息）。而且，我们也很难预先定义需要识别的物体种类。而第二种方法则较难学习到细粒度的视觉和语言对齐，例如：物体级别的对齐。这种细粒度的对齐关系被之前的工作证实对于视觉推理（visual reasoning）和视觉定位（visual grounding）任务很有帮助。

实际上，对于多模态预训练，有以下公开数据以供模型训练：1）图片和图片标题；2）区域标注，例如：图 1 中的文本“man crossing the street”关联到了图片中的某个具体区域。然而，之前的工作却粗略地将区域标注与整张图片对齐；3）物体标签，例如“backpack”，这些标签被之前的工作用来训练目标检测器。

与之前的做法不同，本文中作者提出 X-VLM，以统一的方式利用上述数据学习多粒度的视觉和语言对齐，而不依赖目标检测方法且不局限于学习图像级别或物体级别的对齐。作者提出学习多粒度视觉和语言对齐的关键在于，如图 1（c）所示：1）给出文本，定位图片中的视觉概念，以边界框的回归损失和交并比损失优化；2）同时拉齐文本和对应的视觉概念，通过常用的对比学习损失，匹配损失，MLM 损失优化。实验证明，X-VLM 能在下游任务中有效利用预训练时学到的多粒度视觉和语言对齐，在多种视觉语言任务上获得非常优秀的表现。

方法

▲ 图2：X-VLM框架

X-VLM 由一个图像编码器，一个文本编码器，一个跨模态编码器组成。

图 2 左侧给出了视觉概念 V（可以是物体/区域/图片）的编码过程：该图像编码器采用视觉 Transformer，将输入图片分成 patches 编码。然后，给出任意一个边界框，简单地通过取框中所有 patch 表示的平均值获得区域的全局表示。

再将该全局表示和原本框中所有的 patch 表示按照原本顺序整理成序列，作为该边界框所对应的视觉概念的表示。通过这样的方式获得图片本身（）和图片中视觉概念（，，，）的编码。与视觉概念对应的文本，则通过文本编码器一一编码获得，例如图片标题、区域描述、物体标签。

X-VLM 采用常见的模型结构，其不同之处在于预训练的方法。作者通过以下两类损失进行优化：

第一，给出文本，例如：（text）、（text1）、（text2）、（text3），预测图片中的对应视觉概念的边界框：

是跨模态编码器在 [CLS] 位置的输出向量。Sigmoid 函数是为了标准化。Ground-truth 对应了（），依次是标准化后的的中心横坐标、中心纵坐标、宽、高。最后，该损失是边界框的 GIoU 损失和 L1 损失之和。作者认为在同一张图片中，给不同文字，要求模型预测出对应的视觉概念，能使模型更有效地学习到多粒度的视觉语言对齐。该损失也是首次被使用在多模态预训练中。

第二，同时优化模型去拉齐文本和对应的视觉概念，包括了物体/区域/图片与文本的对齐。作者使用多模态预训练中常见的三个损失优化，依次是：

1）对比学习损失：

，是 ground-truth 相似度，对角线为 1，其余为 0 。，是模型基于文字编码器输出和图像编码器输出所计算的相似度。

2）匹配损失：

是基于跨模态编码器计算，预测所给（）对是否匹配（换句话说，0/1分类）。对于每对正例，作者采样一对负例。

3）Masked Language Modeling 损失：

中的一些词已经被随机替换成了 [MASK]，是跨模态编码器在词位置的输出向量所计算的词表概率分布。

实验

作者使用多模态预训练中常见的 4M 图片数据集进行实验，同时也在一个 16M 数据集下验证了模型效果，如下表所示：

▲ 表1：两种预训练数据集

其中，标注（# Ann）是区域标注和物体标签的总称。可以看出，有些数据集没有图片标题（Captions），例如 Visual Genome，有些数据集没有图片标注，例如 CC-3M/12M。

▲ 表2：在图像文本检索任务上的实验结果

表 2 展示了在图像文本检索任务（MSCOCO 和 Flickr30K）上的表现。可以看出在 4M 图片数据集下训练的 X-VLM 就已经超过了之前的方法。

▲ 表3：在多种下游视觉语言任务上的实验结果

表 3 展示了在视觉推理（VQA2.0 和 NLVR2）、视觉定位（RefCOCO+）、图片描述生成（COCO Captio）上的模型表现。结合表 2 和表 3，可以看出，相比之前的方法，X-VLM 支持更多种类的下游任务，并且在这些常见的视觉语言任务上都取得了最先进的表现。

总结

在本文中，作者提出了 X-VLM，以统一的方法学习多粒度的视觉和语言对齐，不依赖目标检测方法且不局限于学习图片级别或物体级别的对齐。这种预训练方法适用于广泛的下游任务，除了视觉推理，还同时在图像文本检索、视觉定位、图片描述生成任务上取得了最先进的表现。全部代码均已开源，可扫下方二维码体验。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

X-VLM

关注 0

【CVPR 2022】基于层次化视觉语言知识蒸馏的开放词汇单阶段检测，Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning

专知会员服务

7+阅读 · 2022年3月19日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知会员服务

35+阅读 · 2022年1月26日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

72+阅读 · 2021年7月29日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

不再内卷！视觉字幕化新任务合集

PaperWeekly

5+阅读 · 2022年4月3日

CVPR 2022 | 北大&字节AI提出DA-WSOL：弱监督物体定位新框架

CVer

1+阅读 · 2022年3月20日

Fudan DISC推出跨视觉语言模态预训练模型MVPTR：多层次语义对齐实现SOTA（已开源）

机器之心

0+阅读 · 2022年3月4日

「理解和生成」的大一统！华人一作提出BLIP模型，「视觉+语言」任务多项SOTA

新智元

1+阅读 · 2022年2月10日

自监督和语言监督我全都要？Facebook多模态预训练模型SLIP给你答案！

PaperWeekly

1+阅读 · 2022年1月30日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

视觉Transformer BERT预训练新方法！中科大&MSRA等提出PeCo：卷起来了！

CVer

1+阅读 · 2021年12月7日

【论文导读】2021年论文导读第二十一期，7篇「视觉语言表示、图嵌入」TIP等论文

专知

1+阅读 · 2021年11月16日

CVPR 2018 | 伯克利等提出无监督特征学习新方法，代码已开源

AI前线

12+阅读 · 2018年5月13日

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

数据派THU

13+阅读 · 2017年11月29日

基于弱监督学习的图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

图像标签关联性模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

视觉原理指导下的动目标检测与跟踪新方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于隐含关系的视觉显著学习方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于多层上下文关系的图像目标识别关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

语义计算与理解的资源共享与测评方法

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

选择性注意驱动的图像语义理解方法与计算模型研究

国家自然科学基金

0+阅读 · 2008年12月31日

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote Sensing

Arxiv

0+阅读 · 2022年4月19日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

Cross-Modal Self-Attention Network for Referring Image Segmentation

Arxiv

18+阅读 · 2019年4月9日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

Image Captioning at Will: A Versatile Scheme for Effectively Injecting Sentiments into Image Descriptions

Arxiv

16+阅读 · 2018年1月30日

VIP会员