从重参数的角度看离散概率分布的构建

2022 年 5 月 28 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

一般来说，神经网络的输出都是无约束的，也就是值域为，而为了得到有约束的输出，通常是采用加激活函数的方式。例如，如果我们想要输出一个概率分布来代表每个类别的概率，那么通常在最后加上 Softmax 作为激活函数。那么一个紧接着的疑问就是：除了 Softmax，还有什么别的操作能生成一个概率分布吗？

在《漫谈重参数：从正态分布到 Gumbel Softmax》 [1] 中，我们介绍了 Softmax 的重参数操作，本文将这个过程反过来，即先定义重参数操作，然后去反推对应的概率分布，从而得到一个理解概率分布构建的新视角。

问题定义

假设模型的输出向量为，不失一般性，这里假设两两不等。我们希望通过某个变换将转换为元概率分布，并保持一定的性质。比如，最基本的要求是：

当然，这些要求都很平凡，只要是的单调函数（对于 Softmax 有），那么变换

都可以满足上述要求。接下来我们增加一个不那么平凡的条件：

其中代表全 1 向量，则是任意常数。也就是说，的每个分量都加上同一常数后，变换的结果保持不变。容易检验 Softmax 是满足这个条件的，然而除了 Softmax 外，我们似乎很难想到别的变换了。

噪声扰动

非常有意思的是，我们可以借助重参数（Reparameterization）的逆过程来构造这样的变换！假设是从分布独立重复采样次得到的向量，由于是随机的，那么通常也是随机的，那么我们可以通过

来定义变换。由于是独立同分布的，且整个定义只跟有关，也就是只涉及到每个分量的相对大小，因此所定义的变换必然是满足前述4个条件的。

我们也可以通过直接算出的形式来判断它满足的性质。具体来说，意味着

也就是，显然越大该式成立的可能性越大，也即越大对应的越大，这便是条件 3。具体来说，固定的情况下，满足该条件的概率是

这里是的累积分布函数（Cumulative Distribution Function）。由于各个都是独立同分布的，因此我们可以将概率直接连乘起来：

这是固定的情况下，的概率。最后我们只需要对求平均，就可以得到：

从的表达式可以看到它只依赖于相对值，因此显然它满足定义中的条件 4。

温故知新

对照《漫谈重参数：从正态分布到 Gumbel Softmax》[1] 中关于 Gumbel Max [2] 的介绍，我们可以发现上述推导跟重参数正好相反，它是先定义了重参数的方法，然后在反向推导出对应的概率分布。

现在我们可以来重新检验一下之前的结果，即当噪声分布取 Gumbel 分布时，式（8）是否能得到常规的 Softmax 操作。Gumbel 噪声是通过变换而来，由于的分布正好是，所以解出来正好就是 Gumbel 分布的累积分布函数，即，而就是的导数，即。

将上述结果代入式（8）得

这正好是 Softmax。于是我们再次验证了 Gumbel Max 与 Softmax 的对应关系。

数值计算

能像 Gumbel 分布那样解出诸如 Softmax 的解析解是极其稀罕的，至少笔者目前还找不到第二例。因此，大多数情况下，我们只能用数值计算方法近似估算（8）。由于，所以我们可以直接凑微分得：

记，那么

其中是的逆函数，在概率中也叫分位函数（Quantile Function、Percent Point Function 等）。

从上式可以看到，只要我们知道的解析式，就可以对进行近似计算。注意我们不需要知道的解析式，因为采样点的结果我们可以用其他数值方法提前计算好。

以标准正态分布为例，，而主流的深度学习框架基本上都自带了函数，所以的计算是没有问题的；至于我们可以通过 scipy.stats.norm.ppf 来事先计算好。所以当采样自标准正态分布时，的计算在主流深度学习框架中都是没问题的。

文章小结

本文从重参数角度对 Softmax 进行推广，得到了一类具备相似性质的概率归一化方法。

参考文献

[1] https://kexue.fm/archives/6705

[2] https://en.wikipedia.org/wiki/Gumbel_distribution

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

概率分布

关注 1

概率分布，是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验，则必须知道试验的全部可能结果及各种可能结果发生的概率，即随机试验的概率分布。如果试验结果用变量X的取值来表示，则随机试验的概率分布就是随机变量的概率分布，即随机变量的可能取值及取得对应值的概率。根据随机变量所属类型的不同，概率分布取不同的表现形式。

自编码器26页综述论文：概念、图解和应用

专知会员服务

28+阅读 · 2022年3月5日

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

专知会员服务

16+阅读 · 2021年11月3日

【干货书】面向工程师的随机过程，448页pdf

专知会员服务

80+阅读 · 2021年11月3日

[ICCV2021]自适应多模态选取框架用于视频理解

专知会员服务

18+阅读 · 2021年10月30日