SquarePlus:可能是运算最简单的ReLU光滑近似

2022 年 1 月 20 日 PaperWeekly



©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络


ReLU 函数,也就是 ,是最常见的激活函数之一,然而它在 处的不可导通常也被视为一个“槽点”。为此,有诸多的光滑近似被提出,比如 SoftPlus、GeLU、Swish 等,不过这些光滑近似无一例外地至少都使用了指数运算 (SoftPlus 还用到了对数),从“精打细算”的角度来看,计算量还是不小的(虽然当前在 GPU 加速之下,我们很少去感知这点计算量了)。 最近有一篇论文《Squareplus: A Softplus-Like Algebraic Rectifier》 [1] 提了一个更简单的近似,称为. SquarePlus,我们也来讨论讨论。
需要事先指出的是,笔者是不建议大家花太多时间在激活函数的选择和设计上的,所以虽然分享了这篇论文,但主要是提供一个参考结果,并充当一道练习题来给大家“练练手”。


定义

SquarePlus 的形式很简单,只用到了加、乘、除和开方:

其中 。当 时,正好退化为 。SquarePlus 的灵感来源大致是

因此为了补充在 的可导性,在根号里边多加一个大于 0 的常数 (防止导数出现除零问题)。
原论文指出,由于只用到了加、乘、除和开方,所以 SquarePlus 的速度(主要是在 CPU 上)会比 SoftPlus 等函数要快:

▲ SquarePlus与其他类似函数的速度比较

当然,如果你不关心这点速度提升,那么就像本文开头说的,当作数学练习题来看看就好。


性态
跟 SoftPlus 函数( )一样,SquarePlus 也是全局单调递增的,并且恒大于 ReLU,如下图(下图的 SquarePlus 的 ):

▲ ReLU、SoftPlus、SquarePlus函数图像(一)

直接求它的导函数也可以看出单调性:

至于二阶导数

也是恒大于 0 的存在,所以 SquarePlus 还是一个凸函数。


逼近

现在有两道练习题可以做了:

1、当 取什么时 SquarePlus 恒大于 SoftPlus?
2、当 取什么时,SquarePlus 与 SoftPlus 误差最小?
第一个问题,直接从 解得:

要使得上式恒成立, 必须大于等于右端的最大值,而我们可以证明右端最大值在 处取到,所以 。至此,第一个问题解决。
证明: 留意到

所以 是一个凹函数,那么由詹森不等式得

也就是 ,或者 ,两边乘以 4 即得待证结论。等号成立的条件为 ,即
至于第二个问题,我们需要有一个“误差”的标准。这里跟之前的文章《GELU的两个初等函数近似是怎么来的》一样,转化为无额外参数的 问题:

这个问题笔者没法求得解析解,目前只能通过数值求解:

 1import numpy as np
2from scipy.special import erf
3from scipy.optimize import minimize
4
5def f(x, a):
6    return np.abs((x + np.sqrt(x**2 + a**2)) / 2 - np.log(np.exp(x) + 1))
7
8def g(a):
9    return np.max([f(x, a) for x in np.arange(-240.0001)])
10
11options = {'xtol'1e-10'ftol'1e-10'maxiter'100000}
12result = minimize(g, 0, method='Powell', options=options)
13b = result.x**2
14print(b)
最终算出的结果是 ,误差最大值为 ,比较如下:

▲ ReLU、SoftPlus、SquarePlus函数图像(二)



小结
似乎也没啥好总结的,就是介绍了一个 ReLU 的光滑近似,并配上了两道简单的函数练习题~

参考文献

[1] https://arxiv.org/abs/2112.11687


特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
0

相关内容

NeurIPS 2021 | 用简单的梯度下降算法逃离鞍点
专知会员服务
23+阅读 · 2021年12月6日
结构化剪枝综述
专知会员服务
48+阅读 · 2021年11月18日
逆优化: 理论与应用
专知会员服务
36+阅读 · 2021年9月13日
专知会员服务
11+阅读 · 2021年7月27日
【干货书】从初等问题看数学的本质,400页pdf
专知会员服务
56+阅读 · 2021年5月28日
专知会员服务
19+阅读 · 2020年12月9日
可逆神经网络详细解析:让神经网络更加轻量化
交替方向乘子法(ADMM)算法原理详解
PaperWeekly
3+阅读 · 2022年1月21日
输入梯度惩罚与参数梯度惩罚的一个不等式
PaperWeekly
0+阅读 · 2021年12月27日
从最小二乘法到卡尔曼滤波
PaperWeekly
1+阅读 · 2021年12月22日
WGAN新方案:通过梯度归一化来实现L约束
PaperWeekly
1+阅读 · 2021年12月13日
用狄拉克函数来构造非光滑函数的光滑近似
PaperWeekly
0+阅读 · 2021年10月23日
Softmax 函数和它的误解
极市平台
0+阅读 · 2021年10月15日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Convex-Concave Min-Max Stackelberg Games
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月16日
Arxiv
15+阅读 · 2021年2月19日
VIP会员
相关VIP内容
NeurIPS 2021 | 用简单的梯度下降算法逃离鞍点
专知会员服务
23+阅读 · 2021年12月6日
结构化剪枝综述
专知会员服务
48+阅读 · 2021年11月18日
逆优化: 理论与应用
专知会员服务
36+阅读 · 2021年9月13日
专知会员服务
11+阅读 · 2021年7月27日
【干货书】从初等问题看数学的本质,400页pdf
专知会员服务
56+阅读 · 2021年5月28日
专知会员服务
19+阅读 · 2020年12月9日
相关资讯
可逆神经网络详细解析:让神经网络更加轻量化
交替方向乘子法(ADMM)算法原理详解
PaperWeekly
3+阅读 · 2022年1月21日
输入梯度惩罚与参数梯度惩罚的一个不等式
PaperWeekly
0+阅读 · 2021年12月27日
从最小二乘法到卡尔曼滤波
PaperWeekly
1+阅读 · 2021年12月22日
WGAN新方案:通过梯度归一化来实现L约束
PaperWeekly
1+阅读 · 2021年12月13日
用狄拉克函数来构造非光滑函数的光滑近似
PaperWeekly
0+阅读 · 2021年10月23日
Softmax 函数和它的误解
极市平台
0+阅读 · 2021年10月15日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员