Using attention weights to identify information that is important for models' decision-making is a popular approach to interpret attention-based neural networks. This is commonly realized in practice through the generation of a heat-map for every single document based on attention weights. However, this interpretation method is fragile, and easy to find contradictory examples. In this paper, we propose a corpus-level explanation approach, which aims to capture causal relationships between keywords and model predictions via learning the importance of keywords for predicted labels across a training corpus based on attention weights. Based on this idea, we further propose a concept-based explanation method that can automatically learn higher-level concepts and their importance to model prediction tasks. Our concept-based explanation method is built upon a novel Abstraction-Aggregation Network, which can automatically cluster important keywords during an end-to-end training process. We apply these methods to the document classification task and show that they are powerful in extracting semantically meaningful keywords and concepts. Our consistency analysis results based on an attention-based Na\"ive Bayes classifier also demonstrate these keywords and concepts are important for model predictions.


翻译:使用关注权重来确定对模型决策很重要的信息,是解释以关注为基础的神经网络的流行方法。这在实践中通常通过生成基于关注权重的每一份文件的热图来实现。然而,这种解释方法很脆弱,容易找到相互矛盾的例子。在本文件中,我们提出一个实体级解释方法,目的是通过学习关键词对根据关注权重在培训中预测标签的关键词的重要性来捕捉关键词和模型预测之间的因果关系。基于这一想法,我们进一步提出一个基于概念的解释方法,可以自动学习更高层次的概念及其对模型预测任务的重要性。我们基于概念的解释方法建在一个新型的“摘要集成网络”,可以在终端到终端培训过程中自动组合重要的关键词。我们将这些方法应用于文件分类任务,并表明它们在提取基于关注的具有意义的关键词和概念方面是强大的。我们基于关注的“Veayees”分类器的一致分析结果也证明了这些关键词和概念对于模型预测很重要。

1
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
专知会员服务
50+阅读 · 2020年11月17日
《可解释的机器学习-interpretable-ml》238页pdf
专知会员服务
195+阅读 · 2020年2月24日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Interpretable CNNs for Object Classification
Arxiv
20+阅读 · 2020年3月12日
Interpretable Adversarial Training for Text
Arxiv
5+阅读 · 2019年5月30日
Interpretable Active Learning
Arxiv
3+阅读 · 2018年6月24日
Arxiv
4+阅读 · 2017年11月14日
VIP会员
相关资讯
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员