训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升

会员服务 ·

训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升

2022 年 3 月 25 日 量子位

丰色发自凹非寺
量子位 | 公众号 QbitAI

Prompt tuning，作为NLP领域中的一个“新宠”，甚至曾被学者誉为NLP预训练新范式。

那么，它能否借鉴到CV领域并产生同样的成绩呢？

现在，来自康奈尔大学和Meta AI等机构，通过Prompt来调整基于Transformer的视觉模型，结果发现：

完全可以！

比起全面微调，Prompt性能提升显著。无论模型的规模和训练数据怎么变，24种情况中有20种都完全胜出。

与此同时，它还能大幅降低每项任务所需的存储成本。

只使用不到1%的模型参数

大家一贯使用的全面微调（full fine-tuning），需要为每个下游任务存储和部署单独的主干参数副本，成本太高，尤其是现在基于Transformer的模型越来越大，已经超过CNN架构。

所谓Prompt，最初指的是在输入文本中预编语言指令，以便预培训的语言模型后续可以直接理解各种下游任务。

它曾让GPT-3即使在少样本或零样本的情况下表现出很强的泛化能力。

最近一些成果则表明，Prompt与完全微调的性能相当，参数存储量还减少了1000倍。

NLP中的高超性能让不少人开始在CV领域中探索Prompt的魔力，不过都只局限于跨模态任务中文本编码器的输入。

在本文中，作者将他们所提出的Visual Prompt Tuning方法，简称为VPT。这是首次有人将Prompt应用到视觉模型主干（backbone），并做出成果。

具体来说，比起全面微调，VPT受最新大型NLP模型调整方法的启发，只在输入空间中引入少量可特定某任务训练的参数（不到模型参数的1%），同时在训练下游任务期间冻结（freeze）预训练模型的主干。

在实操中，这些附加参数只用预先加入到每个Transformer层的输入序列中，并在微调期间与线性head一起学习。

他们一共探索出两种变体：

VPT-Deep变体为Transformer编码器每层的输入预先设置一组可学习的参数；

VPT-Shallow变体则仅将提示参数插入第一层的输入。

两者在下游任务的训练过程中，只有特定于任务的提示和线性头的参数会更新，而整个Transformer编码器被冻结。

接下来，是骡子是马？拉出来溜溜～

20/24的优胜率

实验涉及两种在ImageNet-21k上预训练好的主干，一个来自Vision Transformer，一个来自Swin Transformer。

进行对比的微调方法有三大种，7小种，包括：

（1）完全微调：更新所有主干和分类头（classification head）参数

（2）以分类头为重点的微调，包括Linear、Partial-k和Mlp-k三种；

（3）以及在微调过程中更新一个主干子集参数或向主干添加新的可训练参数的方法，分为Sidetune、Bias和Adapter三种。

实验的数据集有两组，一共涉及24个跨不同领域的下游识别任务，包括：

（1）由5个基准细粒度视觉分类任务组成的FGVC；

（2）由19个不同视觉分类集合组成的VTAB-1k，细分为使用标准相机拍摄的自然图像任务（Natural）、用专用设备（如卫星图像）捕获的图像任务（Specialized）以及需要几何理解的任务（Structured），比如物体计数。

测得每项任务上的平均准确度后，得出的主要结果如下：

VPT-Deep在24个任务中有20个的表现都优于全面微调，同时使用的总模型参数显著减少（1.18× vs. 24.02×）；

要知道，在NLP领域中Prompt再厉害，性能也不会超过全面微调。这说明Prompt很适用于视觉Transformer模型。

和其他微调方法相比（b、c组），VPT-Deep的性能则全部胜出。

此外，选择不同主干参数规模和模型规模的ViT（ViT-B、ViT-L和ViT-H）进行测试还发现，VPT方法不会受影响，依然基本保持性能领先。

而在Swin Transformer中，全面微调法的平均准确度虽然更高，但也付出了巨大的参数代价。

其他微调方法则全部不敌VPT。

作者介绍

一作贾梦霖，康奈尔大学信息科学（Information Science）博士生，主要研究方向为视觉和文本信息的细粒度识别，截至目前共发表过4篇顶会。

共同一作为唐路明，也是康奈尔大学的一位计算机博士在读学生，本科毕业于清华大学数学与物理专业。

他的主要研究方向为机器学习和计算机视觉的交叉领域。

论文地址：

https://arxiv.org/abs/2203.12119

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

Prompt

关注 10

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

47+阅读 · 2021年9月27日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

少即是多？非参数语言模型，68页ppt

专知会员服务

24+阅读 · 2020年11月22日

【EMNLP2020】低资源域适应的多阶段预训练

专知会员服务

19+阅读 · 2020年10月13日

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

超越传统微调！Meta新作VPT：视觉Prompt来了！冻结主干，仅调节1%参数，性能提升显著！

CVer

0+阅读 · 2022年3月26日

视觉Prompt来了，效果超越微调！

夕小瑶的卖萌屋

2+阅读 · 2022年3月26日

谷歌创造ImageNet1K新纪录：性能不佳的微调模型不要扔，求一下平均权重就能提升性能

量子位

0+阅读 · 2022年3月16日

单张GPU搞定GPT-3超参数！先训练小模型，再“一键迁移” | 已开源

量子位

0+阅读 · 2022年3月13日

CV之后，纯MLP架构又来搞NLP了，性能媲美预训练大模型

机器之心

0+阅读 · 2022年2月14日

只需2040张图片，训练视觉Transformer：南大吴建鑫团队提出IDMM

极市平台

0+阅读 · 2022年2月1日

一个既能做CV任务，也能做NLP任务的Transformer模型！谷歌&UCLA提出统一的基础模型

极市平台

0+阅读 · 2022年1月6日

Prompt tuning新工作，五个参数解决下游任务 fine-tuning

夕小瑶的卖萌屋

2+阅读 · 2021年12月2日

NLP大火的Prompt能用到其他领域吗？清华孙茂松组的CPT了解一下

PaperWeekly

0+阅读 · 2021年11月18日

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于数据共享的高并发图计算系统及核心技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向多类图像分类的众包主动学习方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

删失数据中位数回归模型的统计分析

国家自然科学基金

3+阅读 · 2012年12月31日

区域可持续发展模型集成与共享研究

国家自然科学基金

0+阅读 · 2012年12月31日

众核体系架构并行计算模型与算法自适应调优框架研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于共享变量的多核并发程序模型检测

国家自然科学基金

0+阅读 · 2012年12月31日

航天器大规模集群飞行的分布式协调控制方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

大规模计算网络并行任务调度模型及其参数方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于敏感性的前向神经网络学习机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

PaLM: Scaling Language Modeling with Pathways

Arxiv

0+阅读 · 2022年4月19日

Multimodal Few-Shot Object Detection with Meta-Learning Based Cross-Modal Prompting

Arxiv

0+阅读 · 2022年4月16日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Contrastive Triple Extraction with Generative Transformer

Arxiv

13+阅读 · 2021年2月4日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Self-supervised Learning: Generative or Contrastive

Arxiv

19+阅读 · 2020年7月21日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员