知识蒸馏作为一种有效的模型加速和模型压缩方法,近年来得到了广泛的使用。它通过使用大型神经网络的预测作为小型神经网络的学习目标,将知识从大型神经网络转移到小型神经网络。但是,这种方式忽略了大型神经网络内部的知识,例如权重。在本文中我们提出权重蒸馏,通过参数生成器将大型神经网络的权重知识转移到小型神经网络。在WMT16 En-Ro,NIST12 Zh-En和WMT14 En-De机器翻译任务上,小牛翻译团队的实验表明,权重蒸馏学习的小型网络比大型网络快1.88~2.94倍,而且具有很好的翻译性能。

成为VIP会员查看完整内容
21

相关内容

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
20+阅读 · 2020年4月14日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
96+阅读 · 2020年3月25日
专知会员服务
45+阅读 · 2020年3月6日
稀缺资源语言神经网络机器翻译研究综述
专知
5+阅读 · 2020年12月3日
BERT 瘦身之路:Distillation,Quantization,Pruning
FAIR&MIT提出知识蒸馏新方法:数据集蒸馏
机器之心
7+阅读 · 2019年2月7日
Arxiv
3+阅读 · 2019年11月28日
VIP会员
相关VIP内容
微信扫码咨询专知VIP会员