谈谈自动微分（Automatic Differentiation）

会员服务 ·

谈谈自动微分（Automatic Differentiation）

2022 年 1 月 3 日 PaperWeekly

©作者 | JermyLu

学校 | 中国科学院大学

研究方向 | 自然语言处理与芯片验证

引言

众所周知，Tensorflow、Pytorch 这样的深度学习框架能够火起来，与其包含自动微分机制有着密不可分的联系，毕竟早期 Pytorch ≈ Numpy+AutoGrad，而 AutoGrad 的基础就是自动微分机制。

常见的梯度求解方法包括：数值微分（Numerical Differentiation）、符号微分（Symbolic Differentiation）和自动微分（Automatic Differentiation）。

数值微分

在数学中，求解梯度 = 求解函数偏导数，而导数是用极限来定义的，如下所示：

其中，表示参数的一个很小的变化量，上式是导数的双边定义形式。如果函数是初等函数，则可使用求导法则得到其导数。如果不能得到函数导数的解析式，则必须使用数值微分方法求解该函数在某个点的导数。

数值微分方法简单，但计算量巨大，而且会造成截断误差（Truncation Error）和舍入误差（Round-off Error）。

当用数值微分方法求解梯度时，需要用极限即无穷过程求解。然而，无穷过程在计算机中是不存在的，计算机需要将无穷过程求解截断为有限过程求解。例如，导数定义中是一个无穷过程，在实际计算中（不能等于 0，等于 0 就不存在变化量了），而可能令，这就带来了截断误差。

舍入误差是指运算得到的精确值无法被计算机存储，只能以近似值代替产生的差异。例如，当实数超过了双精度浮点数可以表示的范围之后，计算机无法精确表示，而只能以其近似值代替，就产生了舍入误差。因此，数值微分方法不适用于神经网络梯度反向传播。

符号微分

符号微分是通过建立符号表达式求解微分的方式，即借助符号表达式和求导公式，推导出目标函数关于自变量的微分表达式，最后代入数值即可得到微分结果。例如，对于表达式，其微分表达式，然后将具体数值和代入，即可得到。

使用符号微分方法时，必须将目标函数转为一个完整的数学表达式，这个过程中会出现表达式膨胀（Expression Swell）的问题，大大增加系统存储和处理表达式的负担。

例如，则

在深层神经网络模型中，神经元数量和参数量极大，完整的损失函数的表达式会非常冗长（比示例复杂的多得多，长的多得多），不易存储和管理；再者，完整写出损失函数的微分表达式也是一项庞大的工作量；最重要的一点，在神经网络的梯度反向传播过程中，只需要微分的（中间）结果值，而不是微分表达式。因此，符号微分方法也不适用于神经网络梯度反向传播。

自动微分

自动微分是一种“原子化”的符号微分 ，其将一个复杂的数学运算过程分解为一系列简单的基本算子，如对数函数、三角函数等，然后对这些基本算子进行符号微分得到中间结果，再应用于整个函数。

首先，我们了解一下链式法则。

单变量函数链式法则：

若是的函数，是的函数，是的函数，则

。

多变量函数链式法则：

若是的函数，都是的函数，则

，类似。

接下来，我们以三层全连接层神经网络为例，解释自动微分机制。

定义： 输入层输出为；隐层输出为；输出层输出为；标签为，损失函数使用范式，即；隐层激活函数为记为，输出层激活函数为记为。

因此： 令，则；令，则，为了方便起见，不考虑偏置项。

这个三层神经网络中，参数只包含和，而梯度反传参数更新，更新的就是和。因此，梯度计算的目标是与。

反向传播是由输出层开始计算梯度，之后逆向传播到每一层网络，直至到达输入层。

输出层发生的计算为，即输出层的输入先经过线性变换右乘转换为中间状态，之后经过激活函数变为。最后，和计算得到损失函数值。

该部分网络的前向计算中，上述过程的计算次序为，而反向计算中节点访问次序与之相反。

1. 计算，即计算损失函数关于网络输出结果的梯度，并将梯度向前传递。

2. 计算记为，即函数相对于其输入的梯度，并将梯度向前传递。

3. 得到之后，下一步的目标是计算与。

；
；
梯度需要继续向前一层传递，用于计算其他变量的梯度；梯度会作为参数的梯度计算结果，用于模型参数的更新。

接下来，我们来分析隐藏层发生的计算，其中分别表示隐藏层的输出、中间结果、输入和参数。该部分网络的前向计算中，上述过程的计算次序为，而反向计算中节点访问次序与之相反。

1. 计算，已知，而即激活函数相对于其输入的梯度，有

，即可获得该梯度记为，并向前传递。

2. 得到之后，下一步计算与：

；
；
梯度需要继续向前一层传递，用于计算其他变量的梯度；梯度会作为参数的梯度计算结果，用于模型参数的更新。

综合输出层和隐藏层的反向传播方法，再根据神经网络有向计算图的拓扑结构，逆向访问每一个节点执行上述梯度计算过程即可得到神经网络中任意位置和任意参数的梯度信息。

总结

链式法则+反向传播+有向图拓扑结构，构成了自动微分机制的基础。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

数值微分

关注 0

NeurIPS 2021 | 用简单的梯度下降算法逃离鞍点

专知会员服务

23+阅读 · 2021年12月6日

结构化剪枝综述

专知会员服务

48+阅读 · 2021年11月18日

训练深度学习模型，46页ppt

专知会员服务

51+阅读 · 2021年6月17日

【TPAMI2021】鲁棒可微SVD，Robust Differentiable SVD

专知会员服务

22+阅读 · 2021年4月10日

最新《自动微分》综述教程，71页ppt

专知会员服务

21+阅读 · 2020年11月22日

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

专知会员服务

52+阅读 · 2020年11月21日

最新《自动微分手册》77页pdf

专知会员服务

97+阅读 · 2020年6月6日

【AI应用】Facebook-利用神经网络求解高等数学方程, Using neural networks to solve advanced mathematics equations

专知会员服务

33+阅读 · 2020年1月15日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

145+阅读 · 2019年12月28日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

23+阅读 · 2019年11月23日

SquarePlus：可能是运算最简单的ReLU光滑近似

PaperWeekly

0+阅读 · 2022年1月20日

再谈变分自编码器（VAE）：估计样本概率密度

PaperWeekly

3+阅读 · 2021年12月23日

北京大学NeurIPS 2021 | 用简单的梯度下降算法逃离鞍点

专知

1+阅读 · 2021年12月6日

一文通俗讲解元学习（Meta-Learning）

PaperWeekly

1+阅读 · 2021年11月18日

1秒极速求解PDE：深度神经网络为何在破解数学难题上独具天赋？

机器之心

4+阅读 · 2021年4月23日

论文浅尝 | GMNN: Graph Markov Neural Networks

开放知识图谱

20+阅读 · 2020年2月14日

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

入门 | 一文介绍机器学习中基本的数学符号

机器之心

28+阅读 · 2018年4月9日

【干货】理解深度学习中的矩阵运算

专知

11+阅读 · 2018年2月12日

机器之心最干的文章：机器学习中的矩阵、向量求导

深度学习世界

12+阅读 · 2018年2月7日

非局部Schrödinger方程的高效守恒算法

国家自然科学基金

0+阅读 · 2015年12月31日

带限制条件的凯莱图顶点划分研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于Landau-Zener-Stuckelberg效应的超快电荷量子比特研究

国家自然科学基金

0+阅读 · 2013年12月31日

Steklov特征值问题的高效数值计算方法

国家自然科学基金

0+阅读 · 2012年12月31日

非精确点集的计算几何优化算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

一类拟线性Schrodinger方程(组)解的存在性和集中现象研究

国家自然科学基金

0+阅读 · 2012年12月31日

扩散问题的一类显式并行算法设计与实现

国家自然科学基金

0+阅读 · 2011年12月31日

基于精确解的不可压缩均匀各向同性湍流的统计理论

国家自然科学基金

0+阅读 · 2011年12月31日

线性积分方程的Galerkin快速谱方法

国家自然科学基金

0+阅读 · 2009年12月31日

超过程及相关SPDE的研究

国家自然科学基金

0+阅读 · 2008年12月31日

On model-based time trend adjustments in platform trials with non-concurrent controls

Arxiv

0+阅读 · 2022年4月20日

Audio Deep Fake Detection System with Neural Stitching for ADD 2022

Arxiv

0+阅读 · 2022年4月20日

State machines for large scale computer software and systems

Arxiv

0+阅读 · 2022年4月19日

Differentiable Time-Frequency Scattering in Kymatio

Arxiv

0+阅读 · 2022年4月19日

Using deep learning to detect patients at risk for prostate cancer despite benign biopsies

Arxiv

0+阅读 · 2022年4月19日

"Flux+Mutability": A Conditional Generative Approach to One-Class Classification and Anomaly Detection

Arxiv

0+阅读 · 2022年4月19日

Automatic spinal curvature measurement on ultrasound spine images using Faster R-CNN

Arxiv

1+阅读 · 2022年4月17日

Improving Rare Word Recognition with LM-aware MWER Training

Arxiv

0+阅读 · 2022年4月15日

Distributed Machine Learning on Mobile Devices: A Survey

Arxiv

35+阅读 · 2019年9月18日

Hierarchical Graph Representation Learning with Differentiable Pooling

Arxiv

13+阅读 · 2018年6月26日

VIP会员