视觉变换器(ViT)的不断扩展使得这些大型模型的高效微调用于满足特定需求在各种应用中变得极为困难。这个问题起源于ViT中线性层的反向传播过程中所需的计算密集的矩阵乘法。在本文中,我们通过提出一种新的低秩反向传播通过沃尔什-哈达玛变换(LBP-WHT)方法来解决这个问题。直观地说,LBP-WHT将梯度投影到一个低秩空间并执行反向传播。这种方法大大减少了适应ViT所需的计算,因为在低秩空间中的矩阵乘法远少资源密集。我们对多个数据集中的不同模型(ViT,混合卷积-ViT模型)进行了广泛的实验,以展示我们方法的有效性。例如,在CIFAR100上调整一个EfficientFormer-L1模型时,我们的LBP-WHT比最先进的基线高出10.4%的准确性,同时需要较少的9 MFLOPs计算。作为第一个使用低秩反向传播加速ViT适应的工作,我们的LBP-WHT方法与许多先前的努力相辅相成,可以与它们结合以获得更好的性能。

成为VIP会员查看完整内容
23

相关内容

专知会员服务
38+阅读 · 2021年6月3日
专知会员服务
38+阅读 · 2021年4月25日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
63+阅读 · 2021年4月21日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
44+阅读 · 2020年7月4日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
VIP会员
相关VIP内容
专知会员服务
38+阅读 · 2021年6月3日
专知会员服务
38+阅读 · 2021年4月25日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
63+阅读 · 2021年4月21日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
44+阅读 · 2020年7月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员