最近的一些研究阐明了为什么知识蒸馏(KD)可以提高模型性能。然而,KD算法除了能提高模型性能外,还具有其他优点,目前研究较少。在这项研究中,我们试图表明KD增强了模型的可解释性和准确性。我们测量了网络解剖中识别的概念检测器的数量,以定量比较模型的可解释性。我们将可解释性的提高归因于从教师模型传递到学生模型的类相似度信息。首先,通过logit蒸馏确定类相似度信息从教师模型向学生模型的迁移;然后,从类相似信息的存在与否和相似信息的程度两个方面分析了类相似信息对模型可解释性的影响;我们进行了各种定量和定性的实验,并根据不同的数据集、不同的KD方法和不同的可解释性度量检查了结果。我们的研究表明,由大型模型组成的KD模型可以更可靠地应用于各种领域。

成为VIP会员查看完整内容
34

相关内容

【KDD2022】基于对抗性知识蒸馏的深度图神经网络压缩
专知会员服务
22+阅读 · 2022年6月10日
专知会员服务
18+阅读 · 2021年9月16日
专知会员服务
23+阅读 · 2021年8月27日
专知会员服务
48+阅读 · 2021年6月2日
专知会员服务
80+阅读 · 2021年5月10日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
「深度学习中知识蒸馏」最新2022研究综述
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
【综述】医疗可解释人工智能综述论文
专知
32+阅读 · 2019年7月18日
注意力能提高模型可解释性?实验表明:并没有
黑龙江大学自然语言处理实验室
11+阅读 · 2019年4月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
21+阅读 · 2021年12月31日
Arxiv
35+阅读 · 2021年1月27日
Arxiv
10+阅读 · 2018年4月19日
VIP会员
相关VIP内容
【KDD2022】基于对抗性知识蒸馏的深度图神经网络压缩
专知会员服务
22+阅读 · 2022年6月10日
专知会员服务
18+阅读 · 2021年9月16日
专知会员服务
23+阅读 · 2021年8月27日
专知会员服务
48+阅读 · 2021年6月2日
专知会员服务
80+阅读 · 2021年5月10日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员