从重参数的角度看离散概率分布的构建

2022 年 5 月 28 日 PaperWeekly


©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络


一般来说,神经网络的输出都是无约束的,也就是值域为 ,而为了得到有约束的输出,通常是采用加激活函数的方式。例如,如果我们想要输出一个概率分布来代表每个类别的概率,那么通常在最后加上 Softmax 作为激活函数。那么一个紧接着的疑问就是:除了 Softmax,还有什么别的操作能生成一个概率分布吗?

在《漫谈重参数:从正态分布到 Gumbel Softmax》 [1] 中,我们介绍了 Softmax 的重参数操作,本文将这个过程反过来,即先定义重参数操作,然后去反推对应的概率分布,从而得到一个理解概率分布构建的新视角。



问题定义

假设模型的输出向量为 ,不失一般性,这里假设 两两不等。我们希望通过某个变换 转换为 元概率分布 ,并保持一定的性质。比如,最基本的要求是:

当然,这些要求都很平凡,只要 的单调函数(对于 Softmax 有 ),那么变换

都可以满足上述要求。接下来我们增加一个不那么平凡的条件:

其中 代表全 1 向量, 则是任意常数。也就是说, 的每个分量都加上同一常数后,变换的结果保持不变。容易检验 Softmax 是满足这个条件的,然而除了 Softmax 外,我们似乎很难想到别的变换了。



噪声扰动
非常有意思的是,我们可以借助重参数(Reparameterization)的逆过程来构造这样的变换!假设 是从分布 独立重复采样 次得到的向量,由于 是随机的,那么 通常也是随机的,那么我们可以通过

来定义变换 。由于 是独立同分布的,且整个定义只跟 有关,也就是只涉及到每个分量的相对大小,因此所定义的变换必然是满足前述4个条件的。

我们也可以通过直接算出 的形式来判断它满足的性质。具体来说, 意味着

也就是 ,显然 越大该式成立的可能性越大,也即 越大对应的 越大,这便是条件 3。具体来说,固定 的情况下,满足该条件的概率是


这里 的累积分布函数(Cumulative Distribution Function)。由于各个 都是独立同分布的,因此我们可以将概率直接连乘起来:

这是固定 的情况下, 的概率。最后我们只需要对 求平均,就可以得到

的表达式可以看到它只依赖于相对值 ,因此显然它满足定义中的条件 4。



温故知新

对照《漫谈重参数:从正态分布到 Gumbel Softmax》[1] 中关于 Gumbel Max [2] 的介绍,我们可以发现上述推导跟重参数正好相反,它是先定义了重参数的方法,然后在反向推导出对应的概率分布。

现在我们可以来重新检验一下之前的结果,即当噪声分布取 Gumbel 分布时,式(8)是否能得到常规的 Softmax 操作。Gumbel 噪声是 通过 变换而来,由于 的分布正好是 ,所以解出来 正好就是 Gumbel 分布的累积分布函数,即 ,而 就是 的导数,即

将上述结果代入式(8)得

这正好是 Softmax。于是我们再次验证了 Gumbel Max 与 Softmax 的对应关系。



数值计算
能像 Gumbel 分布那样解出诸如 Softmax 的解析解是极其稀罕的,至少笔者目前还找不到第二例。因此,大多数情况下,我们只能用数值计算方法近似估算(8)。由于 ,所以我们可以直接凑微分得:

,那么

其中 是   的逆函数,在概率中也叫分位函数(Quantile Function、Percent Point Function 等)。

从上式可以看到,只要我们知道 的解析式,就可以对 进行近似计算。注意我们不需要知道 的解析式,因为采样点 的结果我们可以用其他数值方法提前计算好。

以标准正态分布为例, ,而主流的深度学习框架基本上都自带了 函数,所以 的计算是没有问题的;至于 我们可以通过  scipy.stats.norm.ppf   来事先计算好。所以当 采样自标准正态分布时, 的计算在主流深度学习框架中都是没问题的。



文章小结
本文从重参数角度对 Softmax 进行推广,得到了一类具备相似性质的概率归一化方法。


参考文献

[1] https://kexue.fm/archives/6705

[2] https://en.wikipedia.org/wiki/Gumbel_distribution




更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
0

相关内容

概率分布,是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布。如果试验结果用变量X的取值来表示,则随机试验的概率分布就是随机变量的概率分布,即随机变量的可能取值及取得对应值的概率。根据随机变量所属类型的不同,概率分布取不同的表现形式。
自编码器26页综述论文:概念、图解和应用
专知会员服务
27+阅读 · 2022年3月5日
【干货书】面向工程师的随机过程,448页pdf
专知会员服务
77+阅读 · 2021年11月3日
[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
17+阅读 · 2021年10月30日
专知会员服务
112+阅读 · 2021年10月6日
专知会员服务
25+阅读 · 2021年9月9日
专知会员服务
18+阅读 · 2021年8月15日
「图像视频深度异常检测」简明综述论文
专知会员服务
36+阅读 · 2021年3月8日
专知会员服务
28+阅读 · 2021年2月19日
生成扩散模型漫谈:DDPM = 贝叶斯 + 去噪
PaperWeekly
1+阅读 · 2022年7月24日
多任务学习漫谈:分主次之序
PaperWeekly
0+阅读 · 2022年3月7日
概率分布的熵归一化(Entropy Normalization)
PaperWeekly
0+阅读 · 2022年1月3日
输入梯度惩罚与参数梯度惩罚的一个不等式
PaperWeekly
0+阅读 · 2021年12月27日
再谈变分自编码器(VAE):估计样本概率密度
PaperWeekly
3+阅读 · 2021年12月23日
两概率分布交叉熵的最小值是多少?
PaperWeekly
0+阅读 · 2021年11月6日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
从最大似然到EM算法:一致的理解方式
PaperWeekly
18+阅读 · 2018年3月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年7月26日
Arxiv
0+阅读 · 2022年7月24日
Arxiv
0+阅读 · 2022年7月22日
Arxiv
64+阅读 · 2021年6月18日
Arxiv
27+阅读 · 2021年2月17日
Arxiv
13+阅读 · 2019年1月26日
VIP会员
相关VIP内容
自编码器26页综述论文:概念、图解和应用
专知会员服务
27+阅读 · 2022年3月5日
【干货书】面向工程师的随机过程,448页pdf
专知会员服务
77+阅读 · 2021年11月3日
[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
17+阅读 · 2021年10月30日
专知会员服务
112+阅读 · 2021年10月6日
专知会员服务
25+阅读 · 2021年9月9日
专知会员服务
18+阅读 · 2021年8月15日
「图像视频深度异常检测」简明综述论文
专知会员服务
36+阅读 · 2021年3月8日
专知会员服务
28+阅读 · 2021年2月19日
相关资讯
生成扩散模型漫谈:DDPM = 贝叶斯 + 去噪
PaperWeekly
1+阅读 · 2022年7月24日
多任务学习漫谈:分主次之序
PaperWeekly
0+阅读 · 2022年3月7日
概率分布的熵归一化(Entropy Normalization)
PaperWeekly
0+阅读 · 2022年1月3日
输入梯度惩罚与参数梯度惩罚的一个不等式
PaperWeekly
0+阅读 · 2021年12月27日
再谈变分自编码器(VAE):估计样本概率密度
PaperWeekly
3+阅读 · 2021年12月23日
两概率分布交叉熵的最小值是多少?
PaperWeekly
0+阅读 · 2021年11月6日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
从最大似然到EM算法:一致的理解方式
PaperWeekly
18+阅读 · 2018年3月19日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员