IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

2022 年 9 月 21 日 PaperWeekly


©PaperWeekly 原创 · 作者 |  武祥宇
单位 |  南京理工大学博士生
研究方向 |  多模态学习



论文标题:

Declaration-based Prompt Tuning for Visual Question Answering

收录会议:

IJCAI 2022

论文链接:

https://arxiv.org/abs/2205.02456

代码链接:
https://github.com/cciiplab/dpt


简介


1.1 问题

近年来,“预训练+微调”范式在跨模态任务中取得了巨大的成功,例如视觉问答(VQA),首先通过自监督任务(如 MLM、ITM 和 ITC)在大规模图文数据集上训练优化 visual-language pre-training 模型,再通过添加一个新的特定于任务的目标函数(如 answer prediction)进行微调以适应下游任务(如 VQA)。


然而,预训练任务目标和微调任务目标形式的不一致性(如微调 VQA 属于输入 image 和 question 的多分类任务,和预训练的任何一个任务都有很大的区别),不仅严重限制了预训练 VL 模型对下游任务的泛化,而且需要引入额外的参数和需要大量有标签数据进行微调。


1.2 方案


作者提出了一种新的 VL 微调范式(Declaration-based Prompt Tuning,简称DPT),这是第一次尝试使用陈述句进行视觉回答的 Prompt Tuning,即将下游 VQA 任务的优化目标形式重新转化为预训练阶段的形式,最大限度地缩小两个阶段之间的差距,促进预训练模型对下游任务的有效适应。


具体而言,DPT 通过:1)textual adaptation,将给定的 question 疑问句转化为陈述句形式进行 Prompt Tuning;2)task adaptation,以预训练阶段的任务目标来优化 VQA,即把 VQA 多分类任务转化为 MLM 和 ITM 任务,通过从陈述句中恢复 mask token 并选择最匹配的 image 来解决 VQA 问题的任务适应。


在 GQA 数据集上的实验结果表明,DPT 在 fully-supervised(2.68%)和 zero-shot/fewshot(over 31%)的准确性方面都优于其他微调方案。




相关工作


2.1 Pre-trained Vision-language Models


最近两年,针对各种下游跨模态任务训练一个通用模型的工作很多,例如 visual question answering 或 image captioning。具体而言,在预训练阶段,首先构建了一个类似 bert 的体系结构,通过各种自监督任务学习多模态表示的预训练,例如,在多模态上下文中进行的 MLM 任务或图像-文本匹配 ITM 任务。接下来,在微调阶段对预训练的模型进行微调,以适应使用完全不同的任务特定目标的下游任务,例如预测 VQA 任务的答案。


在本研究中,作者并没有引入全新的任务目标进行优化,而是尝试将 VQA 重新制定为预训练的范式,促进了预训练的 VL 模型对下游任务的有效泛化。


2.2 Cross-modal Prompt Tuning


Prompt Tuning 具有保持预训练模型优化目标与下游任务一致的能力,这使得预训练模型泛化到下游任务,只需 few/zero 样本进行微调。然而,由于 VQA 任务给定问题的语义复杂性,固定的疑问句 template 或预先设定的统一生成范式在设计合适的 Prompt 模型时可能存在不足。为了克服这一问题,本文提出了一种新的基于陈述句的 Prompt 模型,利用问题自适应陈述句作为 Prompt template,使 VQA 任务的文本格式更符合预训练阶段,缩小预训练和微调阶段之间的文本形式差距。




方法


3.1 Preliminary


给定一个在大规模图文数据集上预训练好的模型,微调 VQA 表示为输入一系列从 image 提取的 region features 和从 question 提取的 text features,将其拼接 fed to 预训练好的模型,输出的 [CLS] token通过额外的、特定于 VQA 任务的 MLP 层输出答案。


3.2 Declaration-based Prompt Tuning



如图 1(b-d)所示,想要将微调 VQA 任务转换为预训练任务的形式,有两个挑战,一个是文本输入格式的不同(question vs declaration)和任务目标形式(MLM&ITM vs answer classification)的不同。因此,作者提出(1)Textual Adaptation,将问题转换为相应的陈述句;(2)Task Adaptation,将答案预测重新制定为 MLM 和 ITM 任务。



图2为整体方法架构,其中左下角 Declaration Generation 为将问题疑问句转化为陈述句的形式。最下方为 VQA 模型的输入,包含 text features 和 image region features,Multi-Layer Transformers 为预训练好的模型,如 VinVL、Oscar、VisualBert 等等,上方为 Task Adaptation,对应预训练模型的 MLM 和 ITM 任务,目的是为了预测 top-k 个候选答案,并通过图文匹配的方式选择最匹配的答案。


Textual Adaptation via Declaration Generation. Textual Adaptation 旨在将疑问句转化为陈述句,例如,“What is the red object left of the girl?” 的陈述句形式是 “A red [MASK] is left of the girl.”。为此,作者引入了陈述生成,将此过程表述为翻译问题,其中源文本和目标文本分别为问题疑问句和对应的陈述句。


首先使用来自 GQA 数据集的注释构建一个陈述句数据集,其中 “fullAnswer” 被视为陈述句,“fullAnswer” 中的 short answer word/phrase 被替换为 [MASK]。然后,在该数据集上训练 encoder-decoder 模型 T5,并使用 auto-regressive cross-entropy 进行优化。最后,该模型可用于将各种 VQA 数据集的问题疑问句转换为陈述句。


Task Adaptation. 将问题疑问句转化为陈述句形式后,就可以将 VQA 任务转化为预训练的 MLM 和 ITM 任务,包括(1)Adaptation to MLM task. 如图 2 上方,将 VQA 重新表述为MLM 任务,首先将疑问句和陈述句拼接成文本输入,见图 2 下方:



其中 Q 表示原始问题,D 表示原始问题转化后的带有 [MASK] 的陈述句(如“a red [MASK] is left of the girl”),然后将其送入预训练好的模型,输出的 [CLS] 和 [MASK] 拼接用于预测并选择 top-k 个候选答案:



(2)Adaptation to ITM task. 如图 2 上方,为了将 VQA 转化为 ITM 任务,陈述句 D 里的 [MASK] 被依次替换为 top-k 个答案,生成 k 个完整的陈述句,如 “a red tray/food/cloth is left of the girl.”:



通过这种方式,将完整的陈述句和原始图像再次输入预训练好的模型,输出的 [CLS] 和 answer token 拼接并预测图文匹配分数:



分数最高的答案即为最终预测的答案。



实验


Datasets. GQA,VQA v2.0



表 1 为在 GQA 数据集上的结果,第三块打勾的模型方法均为多模态预训练+微调的模型,作者提出的 DPT 模型是在建立在 VinVL 模型基础上的 Prompt Tuning,可以看到在 GQA 数据集 balance split 上,DPT 较 VinVL 模型提升接近 3.0%,最下一行在 GQA 全部数据集样本上,DPT 较 VinVL 也有着小幅度提升。



表 2 中,(1)Baseline 为对 VinVL 模型标准 fine-tuning,即不含有任何prompts;(2)Mask为 “Answer: [MASK]” 的 prompt 形式,模型预测的 mask 即为答案;(3)Dynamic 为 “Answer: [V1][V2]…[V16][MASK]” 的形式,其中 ‘[V1]’-‘[V16]’ 表示在微调期间联合训练的可学习的 token;(4)Declaration 为 “Answer: D” 形式,D 即为作者提出的带有 Mask 的陈述句形式。[C] 和 [M] 为 [CLS] 和 [Maks] token,作为模型输出的表征。



表 3 为基于不同的预训练模型进行 DPT 微调的结果,可以看到,在不同的多模态预训练模型的基础上应用 Declaration Promps Tuning 均有提升。




总结


作者提出将视觉问答任务重新表述为 MLM 和 ITM 的任务,最大限度地缩小视觉语言(VL)预训练和微调阶段之间不一致的差距。为此,首先将问题疑问句转换为陈述句,使用保留的 [MASK] 或候选答案,以减少文本输入格式的差异。然后,通过任务适应将 VQA 重新表述为预训练的格式,以 MLM 和 ITM 任务的方式解决 VQA 问题。在两个数据集上的大量实验验证了 DPT 范式在不同预训练 VL 模型上的有效性和可泛化性,这些模型在 fully-supervised 和 zero-shot/few-shot 下都适用。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧

·


登录查看更多
3

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
28+阅读 · 2022年3月12日
【CVPR2022】高分辨率和多样化的视频-文本预训练模型
专知会员服务
9+阅读 · 2022年3月6日
专知会员服务
18+阅读 · 2021年9月13日
预训练语言模型fine-tuning近期进展概述
专知会员服务
36+阅读 · 2021年4月9日
专知会员服务
54+阅读 · 2021年2月2日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
NeurIPS 2022 | 稀疏且鲁棒的预训练语言模型
PaperWeekly
0+阅读 · 2022年11月11日
论文浅尝 | 弱监督下极简的视觉语言预训练模型
开放知识图谱
1+阅读 · 2022年9月26日
迁移Prompt–解决Prompt Tuning三大问题!
夕小瑶的卖萌屋
8+阅读 · 2021年12月15日
SimVLM:弱监督简单视觉语言模型预训练
TensorFlow
0+阅读 · 2021年12月9日
多模态中的Prompt范式:从CLIP、CoOp到CLIP-adapter
PaperWeekly
5+阅读 · 2021年11月3日
论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models
开放知识图谱
0+阅读 · 2021年9月23日
论文浅尝 | 利用冻结语言模型的多模态少样本学习
开放知识图谱
0+阅读 · 2021年8月28日
NLP新宠 | 浅谈Prompt的前世今生
机器学习与推荐算法
14+阅读 · 2021年8月16日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年11月23日
Arxiv
0+阅读 · 2022年11月22日
Arxiv
14+阅读 · 2022年5月6日
Arxiv
20+阅读 · 2021年9月21日
AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Knowledge Representation Learning: A Quantitative Review
VIP会员
相关资讯
NeurIPS 2022 | 稀疏且鲁棒的预训练语言模型
PaperWeekly
0+阅读 · 2022年11月11日
论文浅尝 | 弱监督下极简的视觉语言预训练模型
开放知识图谱
1+阅读 · 2022年9月26日
迁移Prompt–解决Prompt Tuning三大问题!
夕小瑶的卖萌屋
8+阅读 · 2021年12月15日
SimVLM:弱监督简单视觉语言模型预训练
TensorFlow
0+阅读 · 2021年12月9日
多模态中的Prompt范式:从CLIP、CoOp到CLIP-adapter
PaperWeekly
5+阅读 · 2021年11月3日
论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models
开放知识图谱
0+阅读 · 2021年9月23日
论文浅尝 | 利用冻结语言模型的多模态少样本学习
开放知识图谱
0+阅读 · 2021年8月28日
NLP新宠 | 浅谈Prompt的前世今生
机器学习与推荐算法
14+阅读 · 2021年8月16日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员