在预训练和微调范式下,预训练语言模型(PLMs)在各种自然语言处理(NLP)任务中取得了巨大的成功。由于具有大量的参数,PLM需要大量的计算和资源。因此,模型剪枝被引入到大规模PLM的压缩中。然而,以往的方法大多只考虑下游任务的特定知识,而忽略了修剪过程中基本的任务不可知知识,这可能会导致灾难性遗忘问题,导致泛化能力较差。为了在我们的剪枝模型中保持任务不可知论和任务特定的知识,我们提出了对比剪枝(CAP)在预训练和微调范式下。它被设计成一个通用框架,兼容结构化和非结构化剪枝。CAP统一于对比学习,使得经过修剪的模型能够从预训练的任务不可知知识模型和精细调整的任务特定知识模型中学习。此外,为了更好地保留剪枝模型的性能,快照(即每次剪枝迭代时的中间模型)也可以作为剪枝的有效监督。我们大量的实验表明,采用CAP能够持续地产生显著的改进,特别是在非常高的稀疏性场景中。在只保留3%模型参数(即97%稀疏度)的情况下,CAP在QQP和MNLI任务中分别成功地实现了原BERT算法的99.2%和96.3%的性能。此外,我们的探索性实验表明,经过CAP修剪的模型具有较好的泛化能力。

https://www.zhuanzhi.ai/paper/d2442bf43a31aaa81587f38a17e6c85d

成为VIP会员查看完整内容
27

相关内容

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习
专知会员服务
18+阅读 · 2022年4月13日
【WWW2022】互信息压缩的紧凑图结构学习
专知会员服务
32+阅读 · 2022年1月17日
基于大型预训练语言模型的自然语言处理研究进展综述
专知会员服务
93+阅读 · 2021年11月4日
专知会员服务
80+阅读 · 2021年10月15日
专知会员服务
40+阅读 · 2021年5月24日
专知会员服务
37+阅读 · 2021年4月25日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
【WWW2022】互信息压缩的紧凑图结构学习
专知
2+阅读 · 2022年1月17日
【WWW2021】高效的非抽样知识图谱嵌入
专知
0+阅读 · 2021年4月25日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
20+阅读 · 2021年9月21日
VIP会员
相关VIP内容
【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习
专知会员服务
18+阅读 · 2022年4月13日
【WWW2022】互信息压缩的紧凑图结构学习
专知会员服务
32+阅读 · 2022年1月17日
基于大型预训练语言模型的自然语言处理研究进展综述
专知会员服务
93+阅读 · 2021年11月4日
专知会员服务
80+阅读 · 2021年10月15日
专知会员服务
40+阅读 · 2021年5月24日
专知会员服务
37+阅读 · 2021年4月25日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员