SquarePlus：可能是运算最简单的ReLU光滑近似

2022 年 1 月 20 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

ReLU 函数，也就是，是最常见的激活函数之一，然而它在处的不可导通常也被视为一个“槽点”。为此，有诸多的光滑近似被提出，比如 SoftPlus、GeLU、Swish 等，不过这些光滑近似无一例外地至少都使用了指数运算（SoftPlus 还用到了对数），从“精打细算”的角度来看，计算量还是不小的（虽然当前在 GPU 加速之下，我们很少去感知这点计算量了）。最近有一篇论文《Squareplus: A Softplus-Like Algebraic Rectifier》 [1] 提了一个更简单的近似，称为. SquarePlus，我们也来讨论讨论。

需要事先指出的是，笔者是不建议大家花太多时间在激活函数的选择和设计上的，所以虽然分享了这篇论文，但主要是提供一个参考结果，并充当一道练习题来给大家“练练手”。

定义

SquarePlus 的形式很简单，只用到了加、乘、除和开方：

其中。当时，正好退化为。SquarePlus 的灵感来源大致是

因此为了补充在的可导性，在根号里边多加一个大于 0 的常数（防止导数出现除零问题）。

原论文指出，由于只用到了加、乘、除和开方，所以 SquarePlus 的速度（主要是在 CPU 上）会比 SoftPlus 等函数要快：

▲ SquarePlus与其他类似函数的速度比较

当然，如果你不关心这点速度提升，那么就像本文开头说的，当作数学练习题来看看就好。

性态

跟 SoftPlus 函数（）一样，SquarePlus 也是全局单调递增的，并且恒大于 ReLU，如下图（下图的 SquarePlus 的）：

▲ ReLU、SoftPlus、SquarePlus函数图像（一）

直接求它的导函数也可以看出单调性：

至于二阶导数

也是恒大于 0 的存在，所以 SquarePlus 还是一个凸函数。

逼近

现在有两道练习题可以做了：

1、当取什么时 SquarePlus 恒大于 SoftPlus？

2、当取什么时，SquarePlus 与 SoftPlus 误差最小？

第一个问题，直接从

解得：

要使得上式恒成立，必须大于等于右端的最大值，而我们可以证明右端最大值在处取到，所以。至此，第一个问题解决。

证明： 留意到

所以是一个凹函数，那么由詹森不等式得

也就是

，或者

，两边乘以 4 即得待证结论。等号成立的条件为，即。

至于第二个问题，我们需要有一个“误差”的标准。这里跟之前的文章《GELU的两个初等函数近似是怎么来的》一样，转化为无额外参数的问题：

这个问题笔者没法求得解析解，目前只能通过数值求解：

 1import numpy as np
 2from scipy.special import erf
 3from scipy.optimize import minimize
 4
 5def f(x, a):
 6    return np.abs((x + np.sqrt(x**2 + a**2)) / 2 - np.log(np.exp(x) + 1))
 7
 8def g(a):
 9    return np.max([f(x, a) for x in np.arange(-2, 4, 0.0001)])
10
11options = {'xtol': 1e-10, 'ftol': 1e-10, 'maxiter': 100000}
12result = minimize(g, 0, method='Powell', options=options)
13b = result.x**2
14print(b)