理解 LSTM 及其图示

会员服务 ·

理解 LSTM 及其图示

2018 年 9 月 20 日 R语言中文社区

引导关注动图

作者：徐瑞龙，量化分析师，R语言中文社区专栏作者

博客专栏：

https://www.cnblogs.com/xuruilong100

本文翻译自 Shi Yan 的博文 Understanding LSTM and its diagrams，原文阐释了作者对 Christopher Olah 博文 Understanding LSTM Networks 更加通俗的理解。

我不擅长解释 LSTM，写下这段文字是为了我个人记忆方便。我认为 Christopher Olah 的那篇博文是关于 LSTM 最棒的资料。如果想要学习 LSTM 的话，请移步到原始的文章链接。（我会在这里画一些更漂亮的图示）

尽管我们不知道大脑的运行机制，但我们依然能够感觉到它应该有一个逻辑单元和一个记忆单元。我们基于推理和经验得到的这个结论，就像电脑一样，我们也有逻辑单元、CPU 和 GPU，以及内存。

但是，当你观察一个神经网络的时候，它工作起来就像一个黑箱。你从一端出入，再从另一端得到输出。整个决策过程几乎完全取决于当前的输入。

我觉得，说神经网络完全没有记忆是不恰当的。无论怎样，学习得到的权重可以看作是训练数据的一种记忆。但是这种记忆更加静态。有些时候我们需要为后面的使用记住一些输入。这种例子很多，比如股票市场。为了做出好的投资决策，我们至少要从一个时间窗口回溯股票数据。

若要让神经网络接受时间序列数据，最简单的方法就是将若干神经网络连接在一起。每个神经网络只处理一步。你需要向神经网络提供一个时间窗口上所有步的数据，而不是单一步。

许多时候，你处理的数据具有周期模式。举个简单的例子，你需要预测圣诞树的销量。这是件季节性很强的事，每年只有一个高峰出现。一个好的预测策略是回溯一年前的数据。对于这类问题，你需要包含很早以前的数据，或者很强的记忆。你需要知道那哪些有价值的数据需要记住，哪些没用数据要忘记。

理论上，简单连接的神经网络称为递归神经网络，是可以工作的。但实践中面临两个难题：梯度消失和梯度爆炸，这会使神经网络无法使用。

后来出现的 LSTM（长短期记忆网络）通过引入记忆单元（即神经网络的细胞）来解决上述问题。LSTM 模块的图示如下：

初看起来非常复杂。让我们忽略中间部分，只看单元的输入和输出。网络有三个输入，是当前的输入；是上一个 LSTM 单元的输出；是我认为最重要的输入——上一个 LSTM 单元的“记忆”。是当前网络的输出，是当前单元的记忆。

所以，一个单元接收当前的输入、前一个输出和前一个记忆做出决策，并且产生新的输出，更新记忆。

中间部分记忆产生变化的方式非常类似于从管道中导出水流。把记忆想象成管道中的水流。你想要改变记忆流，而这种改变有两个阀门控制。

第一个阀门是遗忘阀门。如果你关掉阀门，旧的记忆不会被保留；如果完全打开，旧的记忆就会完全通过。

第二个阀门是新记忆阀门。新的记忆会通过一个 T 形连接，并于同旧的记忆混合。第二个阀门决定要通过多少新的记忆。

在图示中，顶部的管道是记忆管道。输入是旧的记忆（以向量的形式）。通过的第一个是遗忘阀门，事实上这是一个逐点乘法运算。如果你将旧的记忆与一个接近 0 的向量相乘，这意味着你想要忘记绝大部分记忆。如果你让遗忘阀门等于 1 ，旧的记忆就会完全通过。

记忆流通过的第二个运算是加法运算符，即逐点相加，它的功能类似 T 形连接。新旧记忆通过这个运算混合。另一个阀门控制多少新的记忆来和旧的记忆混合，就是下面的。

两步运算之后，你就将旧的记忆变成了新的记忆

第二个阀门称为新记忆阀门。它也是一个单层神经网络，接收的输入和遗忘阀门一样。这个阀门用来控制多少新的记忆用来影响旧的记忆。

但是，新的记忆却由另一个神经网络产生。这也是一个单层神经网络，但是用 tanh 作为激活函数。这个神经网络的输出将会和新记忆阀门的输出做逐点乘法，然后和旧的记忆相加产生新的记忆。

两个是遗忘阀门和新记忆阀门。

最终，我们需要产生这个 LSTM 单元的输出。这一步有一个输出阀门，它被新的记忆、前一个输出、当前输入和偏移向量共同控制。这个阀门控制向下一个 LSTM 单元输出多少新的记忆。

前一个图是受到 Christopher 博文的启发。但是通常情况下，你会看到下面的图。两幅图之间的主要差异是后一个图没有将记忆单元 C 作为 LSTM 单元的输入。相反，它把它（记忆单元）内化成了“细胞”。

我喜欢 Christopher 的图，它清晰地展示了记忆 C 如何从前一个单元传递到下一个单元。在下面的图中，你不能轻易的发现来自上一个单元，以及是输出的一部分。

我不喜欢下面的图的第二个原因是，单元中的计算是有顺序的，但是你不能直接从图中看出来。例如，为了计算单元的输出，你需要有新的记忆。因此，第一步应该是计算。

下面的图试图通过实线和虚线来强调这种“延迟”或“顺序”。虚线是开始就已经就绪的旧的记忆。实线是新的记忆。计算要求新的记忆要等待的就绪。

但是这两幅图是一样的。这里，我用和第一幅图相同的符号和颜色重画上面的图：

这是遗忘门（阀门）关闭旧的记忆。

这是新记忆阀门和新的记忆：

这是两个阀门和逐点加法将新旧记忆混合以产生（绿色的，在大 “Cell” 后面）。

这是输出阀门和 LSTM 单元的输出。

往期回顾

基于 Keras 用 LSTM 网络做时间序列预测

时间序列深度学习：状态 LSTM 模型预测太阳黑子(一）

时间序列深度学习：状态 LSTM 模型预测太阳黑子(二）

时间序列深度学习：seq2seq 模型预测太阳黑子

R中的设计模式

公众号后台回复关键字即可学习

回复爬虫         爬虫三大案例实战
回复 Python 1小时破冰入门

回复数据挖掘   R语言入门及数据挖掘
回复人工智能   三个月入门人工智能
回复数据分析师  数据分析师成长之路
回复机器学习      机器学习的商业应用
回复数据科学      数据科学实战
回复常用算法      常用数据挖掘算法

相关内容

长短期记忆网络

关注 0

长短期记忆网络(LSTM)是一种用于深度学习领域的人工回归神经网络(RNN)结构。与标准的前馈神经网络不同，LSTM具有反馈连接。它不仅可以处理单个数据点(如图像)，还可以处理整个数据序列(如语音或视频)。例如，LSTM适用于未分段、连接的手写识别、语音识别、网络流量或IDSs(入侵检测系统)中的异常检测等任务。

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

专知会员服务

78+阅读 · 2020年6月25日

【经典书】机器学习高斯过程，266页pdf

专知会员服务

234+阅读 · 2020年5月2日

卷积神经网络的概述论文:分析、应用和展望，21页pdf

专知会员服务

91+阅读 · 2020年4月7日

机器学习速查手册，135页pdf

专知会员服务

342+阅读 · 2020年3月15日