从熵不变性看Attention的Scale操作

2021 年 12 月 30 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

当前 Transformer 架构用的最多的注意力机制，全称为“Scaled Dot-Product Attention”，其中“Scaled”是因为在转置相乘之后还要除以一个在做 Softmax（下面均不失一般性地假设）：

在《浅谈Transformer的初始化、参数化与标准化》 [1] 中，我们已经初步解释了除以的缘由。而在这篇文章中，笔者将从“熵不变性”的角度来理解这个缩放操作，并且得到一个新的缩放因子。在 MLM 的实验显示，新的缩放因子具有更好的长度外推性能。

熵不变性

我们将一般的 Scaled Dot-Product Attention 改写成：

其中是缩放因子，它跟无关，但原则上可以跟长度、维度等参数有关，目前主流的就是。

本文提出一个观点：

为了使得模型结果能够更好地泛化到未知长度，Attention 机制的设计应该使得尽量具备熵不变性。

怎么理解这句话呢？首先，泛化到未知长度，指的是预测长度和训练不一致时也能有不错的效果，比如训练然后外推到测试。我们知道，使用 RoPE 之类的相对位置编码的模型，对长度具有比较好的外推性，但我们依然可以通过更好的设计来增强这种外推性，比如熵不变性就是其中之一。

具体来说，可以视为为条件、为随机变量的条件分布，它的熵为：

熵不变性是指，应该对长度不敏感。更具体一点，就是如果在已有的 token 基础上，再补充几个 token，那么新算出来各个自然也会有所改变，但我们希望不要有太大改变。

为什么希望熵不变呢？我们知道，熵是不确定性的度量（参考《“熵”不起：从熵、最大熵原理到最大熵模型（一）》 [2] ），换个角度想，我们可以将不确定性视为注意力的“聚焦程度”：如果熵为 0，那么注意力将聚焦到某一个 token 上，如果熵为，那么注意力均匀分布到所有 token 上。我们希望熵不变，是希望引入新的 token 后，已有的 token 依旧能同样地聚焦到原来的 token 上，而不希望新 token 的引入过多地“分摊”了原有的注意力，导致求和结果显著发生变化。

新的因子

根据熵不变性以及一些合理的假设，我们可以得到一个新的缩放因子，从而得到一种 Scaled Dot-Product Attention：

这里的是一个跟都无关的超参数，详细推导过程我们下一节再介绍。为了称呼上的方便，这里将式（1）描述的常规 Scaled Dot-Product Attention 称为“Attention-O”（Original），而式（4）以及下面的式（5）描述的变体称为“Attention-E”（Entropy Invariance）。

可能有读者对引入了一个新参数感到不满意，其实这个不难解决。我们知道当前主流的预训练长度就是 512，所以我们假设主流的参数都是为调试好的，所以当的时候，上式应退化为普通的 Scaled Dot-Product Attention，即，推出，代入上式整理后得到：

这就去掉了超参数，下面的实验也是用这个版本。

为了验证该改动是否真如预期那样能提高 Transformer 的外推效果，笔者分别用 Attention-O 和 Attention-E 分别训练了一个 RoFormer small 版本，训练任务为 MLM，训练长度为 64，然后在不同长度的验证集下比较 MLM 的准确率，结果如下：

从实验结果可以看出，在与训练长度一致的情况下，Attention-O 和 Attention-E 的效果是很接近的，但是外推到更大的测试长度时，则明显拉开了差距，比如时 Attention-E 要比 Attention-O 高 10 个百分点以上的准确率，可真不是一星半点了。

推导过程

这一节我们介绍式（4）的推导过程。事实上，推导过程和假设都跟《最小熵原理（六）：词向量的维度应该怎么选择？》中的几乎是一样的。

首先，我们代入的表达式，就可以得到：

要注意，我们仅仅是要做一个半定量的估计，以确定适合的来抵消部分长度的影响，让熵完全不受长度影响是做不到的。所以，我们可以做一些假设，比如假设是一个随机变量，那么可以写出：

将所有求和都用同样的近似代替，我们得到：

留意到一般情况下都是 Layer Norm 出来之后再接一个 Dense 层，而 Dense 层接近正交变换，所以我们近似地假设都是模长为的向量，所以；然后进一步假设均匀地分布在半径为的球面上，那么对的期望可以转化为对夹角的期望，即：

其中服从的分布就是球面上任意两个向量之间的夹角分布，我们在《n维空间下两个随机向量的夹角分布》讨论过。接下来可以像《最小熵原理（六）：词向量的维度应该怎么选择？》的“近似估计”一样，用拉普拉斯近似得到：

因此，为了抵消长度的影响，我们让，从而得出。当然，我们知道这只是估计，所以没必要保留系数 0.24 了，倒不如直接引入超参数，使得：

这就是对应式（4）了。

相关结果

在阅读 ACL 2022 的投稿论文时，发现上面有一篇《Overcoming a Theoretical Limitation of Self-Attention》 [3] ，给出了相近的结果（论文4.3节的公式1）：

不过，该论文并没有太深刻的理论分析，只是构建了两个特殊的 case 来测试 Attention 的性能，测试发现往缩放因子乘上有助于泛化长度，所以就提出来了。

然而可以看出，如果按照默认约定用自然对数的话，那么上式很明显是不合理的，因为当较大时，缩放因子过大，会导致严重的梯度消失。只不过该论文只是在机器翻译上做实验，测得都是级别的序列，所以就没有显示出梯度消失问题。

文章总结

本文从熵不变性的角度重新推导了 Scaled Dot-Product Attention 中的 Scale 操作，得到了一个新的缩放因子。初步的试验结果显示，新的缩放因子不改变已有的训练性能，并且对长度外推具有更好的结果。

参考文献

[1] https://kexue.fm/archives/8620

[2] https://kexue.fm/archives/3534

[3] https://openreview.net/forum?id=qc9O2EtrMI-

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

不变性

关注 1

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知会员服务

29+阅读 · 2021年12月29日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

深度学习激活函数全面综述论文

专知会员服务

72+阅读 · 2021年10月1日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

【IJCAJ 2020】多通道神经网络 Multi-Channel Graph Neural Networks

专知会员服务

26+阅读 · 2020年7月19日

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

专知会员服务

78+阅读 · 2020年5月31日

【ICLR2020】胶囊与反向路由点积注意力

专知会员服务

27+阅读 · 2020年2月15日

【文章|自注意力(self-attention)机制图解】《Illustrated: Self-Attention》by Raimi Karim

专知会员服务

45+阅读 · 2019年11月18日

注意力机制介绍，Attention Mechanism

专知会员服务

171+阅读 · 2019年10月13日

听说Attention与Softmax更配哦～

PaperWeekly

0+阅读 · 2022年4月9日

Meta AI提出PatchConvNet：利用基于注意力的聚合来增强卷积网络

CVer

0+阅读 · 2022年1月8日

论文小综 | Attention in Graph Neural Networks

图与推荐

2+阅读 · 2021年5月10日

一文读懂Attention机制

机器学习与推荐算法

63+阅读 · 2020年6月9日

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

【干货】基于Keras的注意力机制实战

专知

59+阅读 · 2018年5月4日

图注意力网络

科技创新与创业

35+阅读 · 2017年11月22日

基于注意力机制的图卷积网络

科技创新与创业

73+阅读 · 2017年11月8日

神经网络中的「注意力」是什么？怎么用？

北京思腾合力科技有限公司

17+阅读 · 2017年10月28日

论文共读 | Attention is All You Need

黑龙江大学自然语言处理实验室

14+阅读 · 2017年9月7日

带粗糙系数的高阶微分算子的若干研究

国家自然科学基金

0+阅读 · 2013年12月31日

平移不变子空间的结构

国家自然科学基金

0+阅读 · 2013年12月31日

非线性机制对ENSO循环的影响

国家自然科学基金

0+阅读 · 2012年12月31日

对偶框架各向异性提升变换理论与应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

具有不同通讯特性的网络化系统分散协同控制

国家自然科学基金

1+阅读 · 2011年12月31日

非对称Ising类神经网络模型重构的理论研究

国家自然科学基金

0+阅读 · 2011年12月31日

移不变抗混叠多尺度几何分析基础理论研究

国家自然科学基金

0+阅读 · 2011年12月31日

信息不对称程度的量化研究—#8212;基于电子商务市场交易数据的实证分析

国家自然科学基金

0+阅读 · 2009年12月31日

基于视觉注意机制的多尺度图像融合的研究

国家自然科学基金

1+阅读 · 2009年12月31日

生物视觉信息处理机制建模及形状目标识别

国家自然科学基金

0+阅读 · 2008年12月31日

Residual Mixture of Experts

Arxiv

0+阅读 · 2022年4月20日

Visual Attention Methods in Deep Learning: An In-Depth Survey

Arxiv

44+阅读 · 2022年4月16日

Talking-Heads Attention

Arxiv

15+阅读 · 2020年3月5日

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

An Attentive Survey of Attention Models

Arxiv

19+阅读 · 2019年4月5日

DAGCN: Dual Attention Graph Convolutional Networks

Arxiv

16+阅读 · 2019年4月4日

Bilinear Attention Networks

Arxiv

11+阅读 · 2018年5月21日

Additive Margin Softmax for Face Verification

Arxiv

11+阅读 · 2018年1月18日

Order-Free RNN with Visual Attention for Multi-Label Classification

Arxiv

16+阅读 · 2017年12月20日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VIP会员