在资源受限的环境下,将像BERT这样的预训练Transformer模型部署在下游任务上是具有挑战性的,因为它们的推理成本会随着输入序列长度的增加而迅速增加。在这项研究中,我们提出了一种基于约束感知和排序蒸馏的令牌修剪方法ToP,该方法在输入序列通过各层时选择性地删除不必要的令牌,允许模型在保持精度的同时提高在线推理速度。ToP通过一种排序蒸馏令牌提炼技术克服了传统自注意力机制中令牌重要性排名不准确的限制,该技术将有效的令牌排名从未修剪模型的最后一层蒸馏到修剪模型的早期层。接下来,ToP引入了一种粗糙到精细的修剪方法,这种方法自动选择Transformer层的最佳子集,并通过改进的L0正则化在这些层中优化令牌修剪决策。在GLUE基准测试和SQuAD任务上的大量实验显示,ToP在保持精度的同时,提高了速度,超越了现有最先进的令牌修剪和模型压缩方法。ToP将BERT的平均FLOPs减少了8.1倍,同时在GLUE上保持了竞争性的准确度,并在Intel CPU上提供了高达7.4倍的真实延迟加速。代码在这里可用。

成为VIP会员查看完整内容
19

相关内容

【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
34+阅读 · 2023年5月27日
【ICML2023】通过离散扩散建模实现高效和度引导的图生成
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
21+阅读 · 2021年10月8日
专知会员服务
35+阅读 · 2021年6月3日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
60+阅读 · 2021年4月21日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
VIP会员
相关VIP内容
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
34+阅读 · 2023年5月27日
【ICML2023】通过离散扩散建模实现高效和度引导的图生成
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
21+阅读 · 2021年10月8日
专知会员服务
35+阅读 · 2021年6月3日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
60+阅读 · 2021年4月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员