对话机器人与机器学习：手把手教你打造一个智能语音助理

大模型时代的炫酷技能

对话机器人与机器学习：打造神经网络智能语音助理

您可能用过Siri，Alexa或Cortana来设置闹钟，给朋友打电话或安排会议。但是，尽管它们在常见和常规任务中很有用，但很难强迫一个智能助理去讨论通用性的，甚至是哲学性的话题。 Statsbot团队向数据科学家Dmitry Persiyanov请教，学习如何使用神经对话模型解决这个问题以及如何使用机器学习来构建聊天机器人。

通过自然语言与机器交互是通用人工智能的要求之一。人工智能在这个领域被称作对话系统，口语对话系统或聊天机器人。机器需要为您提供信息丰富的答案，保持对话的语境，并且与人类（理想情况下）无异。

实际上，最后一项要求尚未达到。但幸运的是，在它们有用处的情况下，人类已经愿意与机器人进行交谈 - 有时，它们甚至可以是有趣的交流对象。

对话系统有两种主要类型：任务型会话（即Siri，Alexa，Cortana等）和一般性会话（即Microsoft Tay bot）。前者使用自然语言帮助人们解决日常问题，而后者则尝试与人们就广泛的话题进行交流。

在这篇文章中，我将给出一个基于深度神经网络的一般会话对话系统的比较概述。我将描述主要的架构类型和提升它们的方法。此外，还会提供很多论文，教程和实现方法的链接。

我希望这篇文章能成为用机器学习创建聊天机器人的入门帖。如果你能够读完这篇文章，你就可以动手打造自己的对话系统了。准备好了吗？

我需要涉及循环神经网络和单词嵌入（word embedding)，你需要对它们的原理有个了解，以便轻松地读完这篇文章。对于那些需要充电的小伙伴，我在本文末尾为您准备了很棒的教程。

生成模型和选择模型

一般性会话模型可以简单地分为两种主要类型：生成和选择（或排名）模型。此外，混合模型是可能的。但共同点是这样的模型会接受几个对话语境的句子，并预测在这个语境下的答案。在下图中，您可以看到此类系统的图示。

在这篇文章中，当我说“神经网络输入一系列单词”或“单词被传递给RNN”时，我的意思是单词嵌入被传递到网络，而不是单词的ID。

关于对话数据的表示方法

在深入讨论之前，我们应该讨论一下对话数据集是什么样子的。下面描述的所有模型都是成对训练（上下文，回复）。上下文(context)是在回复(reply)之前的几个句子（或者可能是一个）。句子只是出现在词汇表（vocabulary)中的标记序列（tokens)。

为了更好地理解，请查看表格。从两个人之间的原始对话中提取了一批次的三个样本：

How old are you?
Me too! Wow!
Twenty-two. And you?
Hi there.

请注意批处理中每个句子末尾的<eos>（序列结尾）标记。这个特殊标记有助于神经网络理解句子边界并明智地更新其内部状态。

某些模型可能会使用来自数据的其他元信息，例如演讲者身份，性别，情感等。

现在，我们准备继续讨论生成模型。

生成模型

我们从最简单的对话模型开始，以论文A Neural Conversational Model为蓝本。

为了给对话建模，这篇论文运用了序列到序列（seq2seq）框架，该框架最早出现在机器翻译领域，并成功地运用到对话系统。该体系结构由两个具有不同参数集的卷积神经网络（RNN）组成。左边的一个（对应于A-B-C标记）称为编码器(encoder)，而右边的一个（对应于<eos> -W-X-Y-Z标记）称为解码器(decoder)。

编码器原理

编码器卷积网络RNN每次一个地构造一系列上下文标记并更新其隐藏状态。在处理整个上下文序列之后，它产生最终隐藏状态，其结合了上下文时态并用于生成答案。

解码器原理

解码器的目标是从编码器获取上下文表示并生成答案。为此目的，解码器RNN中需要维持一个在词汇之上的softmax层。在每个时间步，该层获取解码器隐藏状态并输出其词汇表中所有单词的概率分布。

以下是生成回复的工作原理：

使用最终编码器隐藏状态（h_0）初始化解码器隐藏状态。
将<eos>标记作为第一个输入传递给解码器并更新隐藏状态（h_1）
从softmax层（使用h_1）采样（或取最大概率的那个）作为第一个单词（w_1）。
将此单词作为输入传递，更新隐藏状态（h_1 - > h_2），并生成一个新单词（w_2）。
重复步骤4，直到生成<eos>标记或超出最大答案长度。

以上是解码器中的回复生成，适用于那些喜欢公式而不是单词的人。这里，wt是时间步长t的采样字; 表示解码器参数; 表示密集层参数; g表示致密层; 是在时间步t处的词汇的概率分布。

在生成回复时使用argmax，当使用相同的上下文时，将始终得到相同的答案（argmax是确定性的，而采样是随机的）。

我上面描述的过程只是模型推理部分，模型训练的部分以稍微不同的方式工作。在每个解码步骤中，使用正确的单词yt而非生成的单层wt。换句话说，在训练时，解码器输入正确的回复序列，但删除了最后一个标记并且<eos>标记被预先添加。

解码器推理环节图示。上一时间步的输出被作为当前时间步的输入

目标是最大化每个时间步上正确的得出下一个单词的概率。更简单地说，我们通过为它提供正确的前缀来要求网络预测序列中的下一个单词。通过最大似然训练进行训练，这引出经典的交叉熵损失：

在这里，yt是在第t步时的正确回复。

生成模型的调整

现在，我们对序列到序列框架有了基本的了解。我们如何为这些模型增加更多的泛化能力？有几种方法：

向编码器或/和解码器RNN添加更多层。
使用双向编码器。由于其前向生成结构，无法使解码器成双向。
在单词嵌入上下功夫。您可以预先初始化单词嵌入，也可以与模型一起从头开始学习它们。
使用更高级的回复生成过程：beamsearch。这个想法是不“贪婪地”产生回复（通过对下一个词采用argmax方法），而是考虑更长单词链的概率并在当中进行选择。
使您的编码器或/和解码器可卷积。卷积神经网络可能比RNN更快，因为它们可以有效地并行化。
使用注意（attention）机制。注意力最初是在机器翻译论文中引入的，并且已经成为一种非常流行和强大的技术。
在每个时间步将最终编码器状态传递给解码器。解码器只看到一次最终编码器状态，然后可能会忘记它。一个好的办法是将其与单词嵌入一起传递给解码器。
使用不同编码器/解码器状态大小。我上面描述的模型要求编码器和解码器具有相同的隐藏状态大小（因为我们用最终编码器的状态初始化解码器状态）。可以通过从编码器最终状态向初始解码器状态添加投影（密集）层来消除此项定义。
使用字符而不是单词或字节对编码来构建词汇表。字符级别的模型值得考虑，因为它们的词汇量较小，并且能够理解词汇中没有的单词，因此它们的工作速度更快。字节对编码（BPE）是两全其美的。办法是在序列中找到最常见的标记对，并将它们合并为一个标记。