视觉Prompt来了，效果超越微调！

会员服务 ·

视觉Prompt来了，效果超越微调！

2022 年 3 月 26 日 夕小瑶的卖萌屋

文 | 丰色@量子位

Prompt tuning，作为NLP领域中的一个“新宠”，甚至曾被学者誉为NLP预训练新范式。

那么，它能否借鉴到CV领域并产生同样的成绩呢？

现在，来自康奈尔大学和Meta AI等机构，通过Prompt来调整基于Transformer的视觉模型，结果发现：

完全可以！

比起全面微调，Prompt性能提升显著。无论模型的规模和训练数据怎么变，24种情况中有20种都完全胜出。

与此同时，它还能大幅降低每项任务所需的存储成本。

论文地址：

https://arxiv.org/abs/2203.12119

只使用不到1%的模型参数

大家一贯使用的全面微调（full fine-tuning），需要为每个下游任务存储和部署单独的主干参数副本，成本太高，尤其是现在基于Transformer的模型越来越大，已经超过CNN架构。

所谓Prompt，最初指的是在输入文本中预编语言指令，以便预培训的语言模型后续可以直接理解各种下游任务。

它曾让GPT-3即使在少样本或零样本的情况下表现出很强的泛化能力。

最近一些成果则表明，Prompt与完全微调的性能相当，参数存储量还减少了1000倍。

NLP中的高超性能让不少人开始在CV领域中探索Prompt的魔力，不过都只局限于跨模态任务中文本编码器的输入。

在本文中，作者将他们所提出的Visual Prompt Tuning方法，简称为VPT。这是首次有人将Prompt应用到视觉模型主干（backbone），并做出成果。

具体来说，比起全面微调，VPT受最新大型NLP模型调整方法的启发，只在输入空间中引入少量可特定某任务训练的参数（不到模型参数的1%），同时在训练下游任务期间冻结（freeze）预训练模型的主干。

在实操中，这些附加参数只用预先加入到每个Transformer层的输入序列中，并在微调期间与线性head一起学习。

他们一共探索出两种变体：

VPT-Deep变体为Transformer编码器每层的输入预先设置一组可学习的参数；

VPT-Shallow变体则仅将提示参数插入第一层的输入。

两者在下游任务的训练过程中，只有特定于任务的提示和线性头的参数会更新，而整个Transformer编码器被冻结。

接下来，是骡子是马？拉出来溜溜～

20/24的优胜率

实验涉及两种在ImageNet-21k上预训练好的主干，一个来自Vision Transformer，一个来自Swin Transformer。

进行对比的微调方法有三大种，7小种，包括：

（1）完全微调：更新所有主干和分类头（classification head）参数

（2）以分类头为重点的微调，包括Linear、Partial-k和Mlp-k三种；

（3）以及在微调过程中更新一个主干子集参数或向主干添加新的可训练参数的方法，分为Sidetune、Bias和Adapter三种。

实验的数据集有两组，一共涉及24个跨不同领域的下游识别任务，包括：

（1）由5个基准细粒度视觉分类任务组成的FGVC；

（2）由19个不同视觉分类集合组成的VTAB-1k，细分为使用标准相机拍摄的自然图像任务（Natural）、用专用设备（如卫星图像）捕获的图像任务（Specialized）以及需要几何理解的任务（Structured），比如物体计数。

测得每项任务上的平均准确度后，得出的主要结果如下：

VPT-Deep在24个任务中有20个的表现都优于全面微调，同时使用的总模型参数显著减少（1.18× vs. 24.02×）；

要知道，在NLP领域中Prompt再厉害，性能也不会超过全面微调。这说明Prompt很适用于视觉Transformer模型。

和其他微调方法相比（b、c组），VPT-Deep的性能则全部胜出。

此外，选择不同主干参数规模和模型规模的ViT（ViT-B、ViT-L和ViT-H）进行测试还发现，VPT方法不会受影响，依然基本保持性能领先。

而在Swin Transformer中，全面微调法的平均准确度虽然更高，但也付出了巨大的参数代价。

其他微调方法则全部不敌VPT。

作者介绍

一作贾梦霖，康奈尔大学信息科学（Information Science）博士生，主要研究方向为视觉和文本信息的细粒度识别，截至目前共发表过4篇顶会。

共同一作为唐路明，也是康奈尔大学的一位计算机博士在读学生，本科毕业于清华大学数学与物理专业。

他的主要研究方向为机器学习和计算机视觉的交叉领域。

后台回复关键词【入群】

加入卖萌屋NLP、CV与搜推广求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各大顶会论文集！

登录查看更多

相关内容

Prompt

关注 10

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

中科院自动化所徐波团队最新《视觉-语言预训练》综述

专知会员服务

67+阅读 · 2022年2月23日

【浙江大学ICLR2022】可微分提示—一种更加高效的预训练少样本微调方法

专知会员服务

32+阅读 · 2022年2月18日

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

专知会员服务

48+阅读 · 2022年1月26日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【EMNLP2020】低资源域适应的多阶段预训练

专知会员服务

19+阅读 · 2020年10月13日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

超越传统微调！Meta新作VPT：视觉Prompt来了！冻结主干，仅调节1%参数，性能提升显著！

CVer

0+阅读 · 2022年3月26日

训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升

量子位

2+阅读 · 2022年3月25日

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

新智元

1+阅读 · 2022年3月20日

谷歌创造ImageNet1K新纪录：性能不佳的微调模型不要扔，求一下平均权重就能提升性能

量子位

0+阅读 · 2022年3月16日

90.35%准确率！谷歌刚刚开源最大视觉模型V-MoE的全部代码！150亿参数！

CVer

0+阅读 · 2022年1月21日

一个既能做CV任务，也能做NLP任务的Transformer模型！谷歌&UCLA提出统一的基础模型

极市平台

0+阅读 · 2022年1月6日

迁移Prompt–解决Prompt Tuning三大问题！

夕小瑶的卖萌屋

9+阅读 · 2021年12月15日

Prompt tuning新工作，五个参数解决下游任务 fine-tuning

夕小瑶的卖萌屋

2+阅读 · 2021年12月2日

颜水成发了个「简单到令人尴尬」的视觉模型，证明Transformer威力源自其整体架构

量子位

0+阅读 · 2021年11月24日

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于数据共享的高并发图计算系统及核心技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

生物认知机制和特性启发的视觉计算模型与方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于隐含关系的视觉显著学习方法

国家自然科学基金

0+阅读 · 2012年12月31日

指挥空间协作交互任务认知模型与通道整合方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于稀疏表示技术的大规模医学图像检索新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向网络弱标记图像的视觉对象模型在线学习方法

国家自然科学基金

0+阅读 · 2011年12月31日

量子秘密共享若干关键问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向量子操控的量子系统辨识方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

用光学方法研究整体动物视觉皮层神经胶质细胞方位选择性机制

国家自然科学基金

0+阅读 · 2009年12月31日

What Makes Instruction Learning Hard? An Investigation and a New Challenge in a Synthetic Environment

Arxiv

0+阅读 · 2022年4月19日

A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding

Arxiv

1+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Multimodal Few-Shot Object Detection with Meta-Learning Based Cross-Modal Prompting

Arxiv

0+阅读 · 2022年4月16日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Arxiv

30+阅读 · 2021年7月28日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

VIP会员