BERT-based architectures currently give state-of-the-art performance on many NLP tasks, but little is known about the exact mechanisms that contribute to its success. In the current work, we focus on the interpretation of self-attention, which is one of the fundamental underlying components of BERT. Using a subset of GLUE tasks and a set of handcrafted features-of-interest, we propose the methodology and carry out a qualitative and quantitative analysis of the information encoded by the individual BERT's heads. Our findings suggest that there is a limited set of attention patterns that are repeated across different heads, indicating the overall model overparametrization. While different heads consistently use the same attention patterns, they have varying impact on performance across different tasks. We show that manually disabling attention in certain heads leads to a performance improvement over the regular fine-tuned BERT models.


翻译:目前,基于BERT的架构为许多NLP任务提供了最先进的业绩,但对于有助于其成功的确切机制却知之甚少。在目前的工作中,我们侧重于自我关注的解释,这是BERT的一个基本基本组成部分之一。我们利用GLUE任务的一个子集和一套手工制作的特质,提出方法,对BERT个人头目的个人编码的信息进行定性和定量分析。我们的调查结果表明,不同头目之间重复的注意模式有限,表明总体模式过于平衡。虽然不同的头目始终使用同样的注意模式,但对不同任务的业绩有着不同的影响。我们表明,某些头目手工分散的注意力,导致对定期微调的BERT模型的业绩改进。

4
下载
关闭预览

相关内容

【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
22+阅读 · 2019年11月4日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
BERT源码分析PART I
AINLP
38+阅读 · 2019年7月12日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Visualizing and Measuring the Geometry of BERT
Arxiv
7+阅读 · 2019年10月28日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
19+阅读 · 2018年10月25日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关资讯
BERT源码分析PART I
AINLP
38+阅读 · 2019年7月12日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员