【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

会员服务 ·

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

2019 年 6 月 13 日 产业智能官

DeepMind制霸《雷神之锤3》！碾压人类的超级多智能体这样训练

新智元报道

来源：DeepMind

编辑：大明、鹏飞

【新智元导读】虽然人类已经无望在电子竞技中打败AI多智能体，但DeepMind的研究仍在继续往前推进。最近他们公布了在强化学习方面的最新进展，并对未来进行了展望。AI智能体的能力还会继续提高吗？会有极限吗？

是的是的我们都知道，已经没有什么电子竞技能够让人类抱有哪怕1%稳赢的希望了。但是！你有没有想过，AI会不会有一个极限？它的潜力还有多少，无穷大？还是最终止步于某个境界？DeepMind的科学家也想知道。

他们最近更新了博客，以雷神之锤为例，为我们重新介绍了强化学习的最新发展、AI在《雷神之锤3·夺旗》中达到了什么样的程度，以及未来的期望。

多智能体最大的挑战：既要独自打拼，还要团队协作

掌握多人游戏中涉及到的策略、战术、团队配合，是AI研究的关键挑战。而DeepMind的科学家已经将AI调教到了和人类相当的水平，这一点在《雷神之锤3·夺旗》体现的淋漓尽致。

AI智能体在游戏中，无论是跟同类打配合，还是跟人类组团，完全天衣无缝，表现的不像个机器人。DeepMind的科学家已经在筹划将夺旗中的方法，应用在雷神之锤3的全部游戏模式中。

Quake III有非常多的游戏模式。自身提供4种，分别是Free For All（竞技场模式）、Team Deathmatch（红蓝两队对战模式）、Tournament（Duel）（单挑模式）、夺旗（红蓝两队夺旗模式）。其他包括MOD和以其开源游戏引擎衍生出的独立游戏也非常多。

https://zh.wikipedia.org/wiki/%E9%9B%B7%E7%A5%9E%E4%B9%8B%E9%94%A4III%E7%AB%9E%E6%8A%80%E5%9C%BA

作为社群生物，我们几十亿人类共同生活在同一个地球上，每个人都有自己独立的目标和行为，但仍然能够通过团队、组织和社会聚集在一起，展示出令人惊叹的集体智慧。这样的设置，我们称之为多智能体学习：每个智能体独立行动，同时要学会与其他智能体的互动以及合作。

参考系都是动态的，自由度非常高。想想我们人类之间团队配合的难度，就知道设计这样的多智能体有多难了！

多智能体克服难题的秘诀

具体到《雷神之锤3·夺旗》中，智能体面临的挑战是直接从原始像素中学习以产生动作。这种复杂性使得第一人称多人游戏成为AI社区内富有成效且活跃的研究领域。

夺旗原本是一项广受欢迎的户外运动，被广泛的应用于电子游戏中。在一张给定的地图中，红蓝双方保护自己的旗子并抢夺对方旗子，5分钟时间内，夺旗次数最多的队伍获胜。在游戏中，还可以标记敌方队员并将其送回出生点。

越是简单的规则，越能衍生出多种多样的玩法，在人类来说是增加了趣味性，在多智能体来讲就是增加了难度。为了继续刁难多智能体，游戏地图被设置成每局一换，以防止多智能体靠着优于人类的记忆来获得地利优势。

多智能体应对时局变化的诀窍，来自基于强化学习的三个概念：

训练一组多智能体而非只训练单一个体，使其能够在游戏中互相学习，提供多样化的队友和对手
每个智能体都学习自己的内部奖励信号，刺激智能体产生他们自己的内在目标比如抢到旗子。然后使用双层优化流程直接优化智能体的内部奖励以获胜，同时利用内部奖励的强化学习来了解智能体的政策。
智能体以快速和慢速两种速度运行，这提高了它们使用内存和生成一致动作序列的能力

由此产生的智能体，被称为For The Win（独孤求胜）智能体，学会了以非常高的水平来玩夺旗。至关重要的是，学到的智能体政策，对地图的大小、队友的数量以及团队中的其他玩家都很有用。

DeepMind组织了40个人，和多智能体一起随机组队。最终独孤求胜智能变得比强基线方法强大得多，超过了人类玩家的胜率。事后调查显示，智能体相比我们人类，更善于打配合！所以阻碍人类胜利的关键是人类不会好好打配合咯。

智能体在训练期间的游戏表现。我们训练的新智能体FTW游戏模式下的Elo得分比人类玩家和自游戏+ RS、自游戏的基线方法更高，该分数反映出游戏获胜的概率。

除了对游戏表现进行评估之外，了解这些智能体的行为和内部表示的复杂度也很重要。

为了理解智能体如何表示游戏状态，我们来看一下在平面上表示的智能体神经网络的激活模式。下图中的点集群表示在游戏期间与附近表示类似激活模式的点的游戏情况。这些点按照智能体发现自己的高级CTF游戏状态着色：在哪个房间？旗帜的状态是什么？可以看到哪些队友和对手？我们观察到相同颜色的聚类，表明智能体以类似的方式表示类似的高级游戏状态。

我们的智能体在游戏世界中的表示。在上图中，根据神经的相似程度绘制出给定时间的神经激活模式：图中两点在空间中距离越近，表明它们的激活模式越相似。然后根据实时比赛情况对它们进行上色：颜色相同，表示情况相同。这些神经激活模式是有组织的，形成了颜色簇，表明智能体以刻板、有组织的方式表示出有意义的游戏玩法。训练后的智能体甚至展示了一些人工神经元，用于直接针对游戏中的特定情形。

智能体从未被告知有关游戏规则的任何内容，但却了解基本的游戏概念，并对CTF产生了有效的直觉。事实上，我们可以找到直接为某些最重要的游戏状态编码的特定神经元，例如在智能体一方的旗子被夺时激活的神经元，或者当智能体的队友拿着旗帜时激活的神经元。本文对此提供了进一步的分析，包括了智能体对记忆和视觉注意力的应用。

超强智能体：强加反应延迟，游戏中仍然胜过人类

我们的智能体在游戏中表现如何？首先，它们的反应时间非常短。由于人类的生物信号传导速度较慢，人类处理和作用于感官输入的速度也就相对较慢。因此，我们的智能体在游戏中的卓越表现，可能是因为它们具备更快的视觉处理能力和运动控制的结果。

然而，在我们人为降低了智能体的瞄准精度和反应时间后，发现这其实只是其表现优秀的其中一个因素。在进一步的研究中，我们训练了内置延迟约四分之一秒（267毫秒）的智能体，也就是说，它们在观察世界之前存在267毫秒的延迟，这与人类游戏玩家的反应时间差不多。但这些自带反应延时的智能体仍然在游戏中的表现仍然优于人类玩家，后者的胜率只有21%。

人类玩家面对响应延迟的智能体的胜率仍然很低，这表明，即使被加上了与人类相当的反应延时，智能体的游戏表现依然胜过人类玩家。此外，通过查看人类和相应延时的智能体的平均游戏事件数量，双方的标记事件数量差不多，表明这些智能体在这方面没有占据优势。

通过无监督学习，我们建立了代理人和人类的典型行为，发现智能体实际上学习了类似人类的行为，比如跟随队友并在对手的基地安营扎寨等。

训练后的智能体做出的几种行为：防守己方基地、骚扰敌方基地、跟随队友。

这些行为在强化学习的训练过程中逐步出现，智能体能够逐渐学会以更加互补的方式进行合作。

一群独孤求胜智能体的训练进程。左上角：30个智能体的Elo评分，它们之间可以互相训练和进化。右上：进化事件树。下图显示了在整个智能体训练过程中知识进展、一些内部奖励机制和行为概率。

《星际争霸2》并不是极限，多智能体将继续前进

AI智能体在《雷神之锤》中的成功经验，被DeepMind应用在更复杂的即时战略游戏中。比如基于人口信息学的多智能体强化学习，构成了面向《星际争霸2》的AlphaStar智能体构建的基础。这款游戏被称为“人类最后的尊严”，但最终也没能挡住AIphaStar称霸的脚步。

而且，《星际争霸2》不会成为AI多智能体能力的极限，DeepMind还在不断给多智能体加大难度，利用多智能体训练中总结出的经验，用于开发高鲁棒性的、甚至可以与人类合作的强大智能体。

智能体在全尺寸地图上玩《雷神之锤3》其他多人游戏模式

更多详细信息，请参阅论文。

论文下载地址：

https://science.sciencemag.org/content/364/6443/859.full

参考链接：https://deepmind.com/blog/capture-the-flag-science/

延展阅读：

从认知学到进化论，详述强化学习两大最新突破

大数据文摘出品

编译：李雷、钱天培

深层强化学习（deep RL）近年来在人工智能方面取得了令人瞩目的进步，在Atari游戏、围棋及无限制扑克等领域战胜了人类。

通过将表征学习与奖励驱动行为相结合，深层强化学习又引发了心理学和神经科学领域的诸多讨论。

不过，深度强化学习过程往往需要大量的训练数据。正因如此，多数人认为这些算法可能与人类学习有着本质的区别。

事实上，这种担忧只出现在深度强化学习技术的早期阶段。随后的AI研究工作已使deep RL系统能更快速有效地学习。

这些AI研究中有两个特别有趣又有前景的技术，分别是情景记忆（对特定事件的记忆，episodic memory）和元学习（学会如何学习，meta-learning）。

今天，我们就会着重介绍这两种新技术——它们或将为强化学习带来重要变革。

作为AI技术，利用了情景记忆和元学习的deep RL方法也可以应用于心理学和神经科学，尤其是这些技术隐含的关于快速和慢速学习模式之间基本联系。

强大但低效：第一波深度强化学习浪潮

在过去的几年里，人工智能（AI）研究取得了革命性的进展，神经网络或“深度学习”方法的再次兴起使图像识别、自然语言处理以及许多其他领域产生突破。这些发展引起了心理学家、心理语言学家和神经科学家的兴趣，他们对人工智能的发展是否会带来有关人类认知和脑功能的新假说感到好奇。

从这个角度来看，人工智能研究的一个特别吸引人的地方就是深度强化学习（deep RL）。deep RL将神经网络建模与强化学习结合起来，这是一套以奖惩而非明确指令驱动学习的方法。经过数十年的空想之后，deep RL在过去的5年里已经成为人工智能研究竞争最激烈的领域之一，在视频游戏、扑克、多人赛和复杂的棋盘游戏（包括围棋和国际象棋）等方面的表现都超越了人类。

深度强化学习

强化学习（RL）的焦点集中在学习行为策略的问题上，即从状态或情境到行为的映射，这使得长期奖励的累积最大化。简单情况下，这种策略可以表示为列举了状态和行为的查找表。而在复杂情况下，则需要用参数化函数来间接地表达策略。早期（上世纪90年代）使用多层（或深层）神经网络来实现，但在整合深层神经网络和RL上遇到了困难。直到2015年，deep RL在复杂领域（如Atari视频游戏）的突破，以及随之而来在改进和扩展deep RL方面的快速发展，使其可以应用于复杂任务中，比如围棋。

作为AI技术，deep RL似乎与心理学和神经科学有着特别的渊源。deep RL的学习驱动机制最初是受到动物训练研究的启发，并且这种机制被认为与基于奖励（产生多巴胺）的学习神经机制密切相关。同时，deep RL利用神经网络来学习支持泛化和转移的强大表征，这一点与生物大脑的关键能力极为相似。有鉴于此，deep RL似乎为研究人类/动物学习的人员在行为和神经科学上提供了丰富的想法和假设。事实上，研究人员已开始注意到这一点。

不过，第一波deep RL研究也引发了某些警示。首先，deep RL系统的学习方式人类完全不同。有人认为，这种差异表现为人类学习与deep RL的采样效率不同。

采样效率是指学习系统达到任何选定目标性能水平所需的数据量。在这一指标上，第一波deep RL系统确实与人类学习者有着本质区别。例如，为了在Atari视频游戏或国际象棋等任务中获得专业级别的表现，deep RL系统的训练数据需要比人类专业选手多几个数量级。简而言之，至少在最初的系统中，deep RL训练速度太慢，无法生成人类学习的合理模型。

但很快，deep RL研究中发生了重大创新，这些创新减少了对训练数据量的要求，使得deep RL的采样效率得到了显著提升，因此可以生成人类学习模型，这为心理学和神经科学的研究找到新的出发点。

本文中，我们主要考虑两种提升样本效率的关键方法：episodic deep RL（情景式deep RL）和meta-RL（元强化学习）。我们研究了这些技术如何实现快速deep RL，及其对心理学和神经科学的潜在影响。

deep RL慢的原因

快速RL技术关键出发点是搞清楚为什么初始的deep RL方法速度如此慢，样本效率如此低下。在这里，我们讲两个主要原因。在本文的最后，我们将回过头来研究这两个原因之间的联系。

第一个原因是增量参数调整，也可以被理解为梯度下降算法所带来的局限性。早期deep RL方法（在人工智能研究中仍然被广泛使用）采用梯度下降来描述从感知输入到动作输出的深度神经网络曲线。这种形式的学习过程中所做的调整必须很小，以便最大限度地泛化并避免覆盖之前的学习效果（有时被称为“灾难性干扰”）。这种对小步长调整的需求是早期deep RL方法速度慢的原因之一。

第二个原因是弱感应偏差。学习理论的一个基本信条是“偏差-方差权衡”，这在任何学习过程中都存在。归纳偏置(inductive bias)是指机器学习算法在学习过程中对某种类型假设的偏好。学习过程对学习模式的初始假设越强（即学习过程的初始归纳偏置越强），完成学习所需的数据就越少（假设初始归纳偏置与数据中的相符）。弱归纳偏置的学习过程可以掌握更广泛的模式（更大的方差），但样本效率通常会降低。实际上，强归纳偏置（对输入数据仅考虑范围窄的假设）才是可以快速学习的原因。更重要的是，通用神经网络是极低偏置的学习系统：它们有许多参数（不同权重），需要适应各种类型的数据。这意味着早期deep RL模型中采用的通用神经网络往往是样本效率奇低的，需要大量数据来学习。

以上两个因素 - 增量参数调整和弱感应偏差 - 共同造成了早期deep RL模型速度慢的事实。然而，随后的研究表明，这两个因素都可以减轻，从而允许deep RL以更加样本有效的方式进行学习。在下文中，我们考虑两种特定技术，一种解决增量参数调整问题，另一种解决弱感应偏差问题。除了它们在AI领域的影响之外，这两种AI技术都与心理学和神经科学有着明显的联系，我们将详细说明。

Episodic Deep RL：通过情景记忆快速学习

如果增量参数调整是deep RL速度慢的一个原因，那么一种解决方法可能是避免这种增量更新。单纯靠控制梯度下降来优化学习率会导致灾难性干扰问题。

最近的研究表明，另一种方法也可以实现相同的目标，即保留过去事件的明确记录，并直接将此记录用作制定新决策的参考点。这种方法称为episodic RL，与机器学习中的“非参数”（不对目标函数的形式作出强烈假设）方法相似，如K近邻算法，也类似于心理学中学习理论的“实例”或“范例”教学。

当遇到新情况且必须决定采取何种行动时，程序将当前情况的内部表示与过去情况的存储表示进行比较。根据与当前最相似的过去情况，选择相关联的动作。当使用多层神经网络计算内部状态表示时，我们将得到的算法称为“episodic deep RL”。

episodic RL的成功取决于用于计算状态相似度的状态表示。后来的研究表明，通过使用梯度下降学习来形成这些状态表示可以改善性能。这些结果解释了episodic RL在Atari学习环境57项游戏中的强大性能和高数据效率，展示了结合慢（表示）学习和快速（估算）学习的好处。

在episodic deep RL中，与标准增量方法不同，可以立即利用每个经验事件获得的信息来指导行为。然而，episodic deep RL能够消除早期deep RL慢的因素，进行快速学习，主要取决于其减缓了增量学习。这种增量学习是对连接权重的渐进学习，允许系统对每个新观察到的情况形成有用的内部表示或嵌入（embeddings）。这些表示的格式通过经验学习获得，使用相同类型的增量参数更新（即标准deep RL的根基）。最终，通过这种较慢的学习形式提升了episodic deep RL的速度。也就是说，通过慢学习实现了快速学习。

快速学习对慢学习的依赖并非巧合。正如我们将在下面论述的那样，它是一个基本原则，不仅适用于AI，也适用于心理学和神经科学。然而，在考虑这个一般性观点之前，我们将研究它在第二个用于快速deep RL技术 - meta-RL中的作用。

Meta-RL：通过学习如何学习来加速deep RL

如前所述，标准deep RL速度慢，除了增量更新，还有弱感应偏差。正如在偏差 - 方差权衡的概念中所描述的，快速学习要求对需要学习的模式结构要有一组合理数量的假设。假设设置得越细（窄），学习速度就越快。然而，正如前面所提到的，有一个问题：一个狭义的假设集只有在它包含正确的假设时才会提高学习速度。虽然强归纳偏置可以加速学习，但只有学习者采用的特定偏置恰好与学习材料相符合时才行。因此，这里出现了一个新的学习问题：学习者如何知道采用什么归纳偏置？

看到这个问题，很容易想到的答案是借鉴过去的经验。显然，这就是我们日常生活中的情形。例如，学习使用新的智能手机。在这种情况下，一个人过去使用智能手机和其他相关设备的经验可以用来假设新手机应该如何工作，也可以用来指导摸索手机操作。这些初始假设对应于偏差 - 方差权衡中的“偏差”，它们会影响快速学习能力。没有这些初始偏置的学习者（即具有更高的“方差”）会考虑更广泛的关于手机操作的假设，但这样就会牺牲学习速度。

利用过去的经验来加速新学习在机器学习中被称为元学习（meta-learning）。其实这个想法源于心理学，被称为“学习如何学习”。这个术语首次出现在一篇心理学研究过论文中，作者Harlow给出了一个可以很好体现这个术语的实验。在实验里，一群猴子面前放着两个它们不熟悉的物体，并允许它们拿起其中一个。

物体下面可能是食物奖励，也可能是空的。然后将两个物体再次放在猴子面前，但是位置可能左右颠倒，重复该过程6轮。然后用两个新的，猴子不熟悉的物体，并重复之前的试验6次。重复更换物体，依此类推。随着测试次数增加，猴子们能发现一个简单规则：总是有一种物体下面有食物而另一种物体没有，不管这种物体放左还是放右。因此当给它们一对新物体时，猴子只要试一次就知道应该选哪个了。这是一个关于学习如何学习的简单生动的例子。

现在回到机器学习，新的研究工作表明怎样利用元学习来加速深度学习，已经有很多方法可以实现这个思路。其中一种方法与神经科学和心理学有着特殊的联系。在这个方法里，循环神经网络在一系列相互关联的RL任务上进行训练。

网络中的权重调整非常缓慢，因此可以反应出任务中共性的内容，但不能快速更改以用于任何单个任务的解决方案。在这种情况下，循环网络的活动状态可以实现自己的RL算法，该算法基于过去任务产生的知识来快速解决每个新任务。也就是说，一个RL算法产生另一个，因此被命名为'meta-RL'。

与episodic deep RL一样，meta-RL也与快速和慢速学习之间的密切联系有关。循环网络的权重在任务之间缓慢更新，允许任务间的共性信息“内置”到循环网络的状态中。由此产生的网络状态变化实现了一种新的学习算法，可以快速解决新问题，因为慢速学习的基础过程给了它们有用的归纳偏置。这又是一次快速学习源于慢学习，并且通过慢学习实现提速。

Episodic Meta-RL

注意！我们上面讨论的两种技术并不相互排斥。实际上，最近的研究表明可以元学习（meta-learning）和情景控制（episodic control）整合起来，实现互补。在Episodic Meta-RL中，如前所述，元学习发生在循环神经网络中。叠加在其上的是情景记忆系统，其作用是恢复循环神经网络的活动模式。与episodic deep RL一样，情景记忆对一组过去事件进行编目，可以根据当前上下文查询这些事件。然而，Episodic Meta-RL不是将上下文与估值联系起来，而是将它们与来自循环网络的内部或隐藏单元的存储活动模式连接起来。这些模式很重要，因为通过meta-RL，它们总结了agent从与单个任务交互中学到的东西。在episodic meta-RL中，当agent遇到与过去类似的情况时，它会允许先前学习的信息影响当前策略。实际上，情景记忆允许系统识别先前遇到的任务，并检索存储的解决方案。

通过模拟“强盗决策”任务和导航任务，Ritter 等人发现episodic meta-RL，就像普通的meta-RL一样，学习强归纳偏置，从而使其能够快速解决新任务。更重要的是，当遇到过去类似的任务时，episodic meta-RL会立即检索并恢复之前生成的解决方案，从而无需重新学习。在第一次遇到新任务时，系统速度受益于meta-RL的快速性; 在其后遇到新任务时，系统速度受益于情景控制所赋予的一次性学习能力。

对神经科学和心理学的启示

正如我们在文章开始时所看到的那样，人们因为采样效率低下的问题而质疑deep RL与人类或其他动物学习的相似性。从心理学和神经科学的角度来看，episodic deep RL和meta-RL的一个重要含义是它们通过展示deep RL实际上速度不慢，从而消除了这种质疑。本文在一定程度上认为，deep RL是可以作为人类和动物学习的候选模型的。然而，除了这一点之外，episodic deep RL和meta-RL的细节也指向了心理学和神经科学中一些有趣的新假说。

首先是episodic deep RL。我们已经注意到它与经典的基于实例学习的人类记忆模型之间的有趣联系。Episodic RL为基于实例的处理如何促进奖励驱动学习提供了一个可能的解释。有趣的是，最近关于动物和人类增强学习的研究越来越认可情景记忆的潜在贡献，有证据表明状态和行动价值的估计是基于对特定的过去行动 - 结果观察的检索记忆。

再说meta-RL，它对心理学和神经科学也有值得注意的潜在影响。有研究提出了从meta-RL的元素到神经结构和功能的直接映射。一系列计算机模拟表明， meta-RL可以解释行为和神经生理学中的各种实证研究结果。

快速和慢速RL：更广泛的意义

在讨论episodic RL和meta-RL时，我们强调了“慢速”学习在实现快速、高采样效率的学习方面的作用。在meta-RL中，正如我们所看到的，缓慢且基于权重学习的作用是建立归纳偏置，这可以用于指导推理，从而快速适应新任务。而episodic RL的缓慢增量学习也是类似的。Episodic RL本质上依赖于对情景或状态之间相似性的判断。缓慢的学习形成了状态的内部表示方式，从而产生了一系列关于哪些状态最密切相关的归纳偏置。

如果更仔细地观察episodic RL，可以看出归纳偏置是学习架构的一部分。episodic RL有一种平滑原则的假设：类似的状态通常会产生类似的动作。这种归纳偏置不是用于学习，而是连接到定义episodic RL的学习系统结构中。在当前的AI术语中，这属于“架构”或“算法偏置”等情况，与meta-RL 中的“学习偏置”不同。

无论是通过学习还是通过直接手工设计架构或算法偏置来实现，目前的人工智能研究主要集中在寻找有用的归纳偏置以加快学习速度。实际上，后一种方法本身就是当前人工智能神经网络理论复苏的主要原因。卷积神经网络引发了这种复苏，它构建了一种与图像识别中的平移不变性相关的非常特定的结构偏置。然而，在过去几年中，越来越多的人工智能研究或多或少地集中在归纳偏置问题上。

站在更高的层次来看，这些技术的发展与心理学中一些长期存在的问题极为相似。正如我们已经指出的那样，归纳偏置可能通过学习获得的想法最初源于心理学，并且不时在心理学研究中被人们提到。然而，神经网络中的元学习可以提供新的应用场景来探索这种学习如何学习过程的机制和原因，尤其是在RL环境中。

心理学，特别是发展心理学，长期以来也一直认为人类存在某种内在固有的归纳偏置。然而，架构偏置的概念以及神经网络学习算法的内置偏置的概念还未得到广泛认同。目前深度学习和深度增强学习的方法都提供了一个研究工具，可能有助于心理学领域的进一步探索。

值得注意的是，虽然人工智能将通过学习获得的归纳偏置和手工“加入”的偏置做了明确区分，但在生物学背景下，两者也有更一般的共性。具体而言，人们可以将架构和算法偏置视为由进化驱动的不同学习过程产生的。在这里，进化是一种“缓慢”的学习过程，逐渐形成架构和算法偏置，从而加快终身学习速度。因此，元学习不仅在一个生命周期内发挥作用，而且在进化中也发挥作用。有趣的是，这种观点意味着进化不会选择真正的“通用”学习算法，而是选择那些利用大脑进化的特定环境中的规律性的算法。最近的机器学习更多地深入研究构建agent体系结构的方法，以及通过自然选择的进化算法构建奖励函数，这些新发展再次证明其在探索神经科学和心理学方面的意义。

结束语

deep RL研究领域的快速发展对心理学和神经科学具有极大的意义，因为它集中关注代表性学习和目标导向行为。在本文中，我们描述了最新的deep RL形式，它克服了采样效率低下的明显问题，允许deep RL “快速”工作。这些技术不仅强化了deep RL对心理学和神经科学的潜在联系，而且它们通过情景记忆和元学习等使这些潜在联系更加丰富多样。此外，deep RL的研究越来越多地为心理学和神经科学的新研究给出具体详细的指导。

正如我们所强调的那样，有关高效采样deep RL最新研究的关键意义在于，要快速学习，就必然依赖于慢速学习，这种慢速学习建立了快速学习的表征和归纳偏置。这样的计算辩证法为研究大脑中多个记忆系统及其进化起源提供了理论框架。然而，除了本文中讨论的那些，人类学习可能涉及多个交互过程，因此我们认为任何deep RL模型都需要整合所有这些才能更接近真实的人类学习。在更广泛的层面上，理解RL中快速和慢速之间的关系为心理学和神经科学提供了令人信服的依据。实际上，这可能是人工智能、神经科学和心理学协同作用的关键领域，一直以来都是认知科学所追求的。

一些值得讨论的问题

可以通过AI方法将高效采样的deep RL扩展到人类实际生活的各种场景中吗？这些方法能否产生对各种人类智慧的抽象本质？为此可能需要什么样的训练环境？

灵活且高效采样的人类学习的机制是否与人工智能中目前正在探索的机制相关？如果是这样，它们的神经实现是什么？当前的人工智能技术中的重点 - 梯度下降学习，是否会在大脑中发生，或者在某些其他机制起相同的作用？

在人类学习者所处的环境中最重要的学习归纳偏置是什么？这些偏置在多大程度上是通过进化遗传或成长过程获得的，在多大程度上是通过学习获得的？

让人类学习者如此高效的一个原因是人类是积极主动、有策略的信息搜集者。那么构建和激励人类探索的原则是什么？我们如何在AI系统中复制这些原则？

DeepMind 综述深度强化学习：智能体和人类相似度竟然如此高！

杨鲤萍 AI科技评论

AI科技评论按：近年来，深度强化学习（Deep reinforcement learning）方法在人工智能方面取得了瞩目的成就，从 Atari 游戏、到围棋、再到无限制扑克等领域，AI 的表现都大大超越了专业选手，这一进展引起了众多认知科学家的关注。不过 Deep RL 需要大量的训练数据，人们开始质疑深度强化学习过于依赖样本，导致效率低下，无法与人类学习的合理模型相匹配。

但在本文中，DeepMind 研究人员将利用最近开发的技术来驳回这些质疑声，这些技术不仅允许深度强化学习更灵活地运行，而且还使其更高效地解决问题。

· 第一代 Deep RL：强大但缓慢 ·

在过去的几年里，人工智能研究取得了革命性的进展。神经网络和「深度学习」的复兴推动了图像识别、自然语言处理等许多领域的突破。这些发展引起了越来越多心理学家、心理语言学家和神经学家的兴趣，他们对 AI 发展是否意味着关于人类认知和脑功能的新假设展现出了充分的好奇心。

从这个角度来讲，AI 中最具吸引力的领域就是深度强化学习。因为它将神经网络建模与强化学习充分的结合起来，形成了一套从奖惩中学习而非从准确教学中学习的方法。数几十年来，深度强化学习更多的是理论层面的研究，直到近五年来，在电子游戏、扑克、多人游戏以及一些复杂的棋盘游戏中，表现出超人类的技术水平，一跃成为人工智能研究最激烈的领域之一。

图1 深层强化学习的代表性例子

除 AI 领域外，深度强化学习似乎和心理学与神经科学也有着紧密的联系。其驱动学习的机制最初是受动物调节作用的启发，并且被认为和基于奖励学习（以多巴胺为中心）的神经机制密切相关。同时，深度强化学习利用神经网络来学习支持泛化和迁移的强大表征，这正和生物大脑的核心相契合。

而正是这些关联，使那些对人类和动物的行为与神经科学学习感兴趣的研究人员，产生了丰富的联想与假设，从而开始将目光转向了深度强化学习。这样的结果，也对那些关于一代 Deep RL 发负面评论发出了警告。

看似深度强化学习和人类的学习方式完全不同：有人认为，这种差异在于二者的样本效率（学习系统达到任何选定目标性能水平所需的数据量）。基于这一标准，一代 Deep RL 确实与人类学习者有着极大的不同。为了在 Atari 游戏或国际象棋等任务中获得专业人士级表现，深度强化学习系统需要比人类多几个数量级的训练数据。

这样的评论确实适用于自2013年开始见于报道的一代 Deep RL 。然而，在那之后的短时间内，Deep RL 的研究发生了重要的创新，其样本效率得到显著提升。这些方法大大降低了深度强化学习对训练数据量的要求，也就相当于让深度强化学习变得快多了。这些计算技术的出现使 Deep RL 成为人类学习建模的候选模型，也是心理学和神经科学相关观点的重要启蒙。

以当下的视角，DeepMind 研究人员在这篇综述中探究了两种关键的 Deep RL 方法来解决样本效率问题：Episodic Deep RL和 Meta-RL 。他们检验这些技术如何加快 Deep RL 的效率，同时也探索了 Deep RL 对心理学和神经科学的潜在影响。

· Deep RL 缓慢的原因 ·

理解能够加速 Deep RL 的技术突破的关键点就是找到 Deep RL 在实际运行中缓慢的原因，DeepMind 描述了样本效率低下的两个主要原因。

第一个原因是增量式的参数更新。

一代 Deep RL 方法采用梯度下降来映射从输入环境到输出动作之间的关联性。正如人工智能和心理学的广泛讨论所得，在该形式下的学习过程，所做的调整必须很小，才能最大限度地泛化并避免覆盖早期的学习成果（这种影响有时会被引用『灾难性干扰』）。

第二个原因是弱归纳偏倚。

任何学习过程都必然需要在偏倚和多样性之间作出取舍。学习过程对学习模式的初始假设越强（即学习过程的初始归纳偏倚越强），学习完成所需的数据就越少（假设初始归纳偏差与数据中的相符）。而具有弱归纳偏差的学习过程虽然能够习得更广泛的模式（即更佳的多样性），但代价是降低样本效率。

所以，强归纳偏倚可以实现快速学习，在选取输入数据时仅考虑范围窄的假设学习系统，可以比弱归纳偏倚的系统更快地得到正确的假设（假设落入该狭窄的初始范围内）。更重要的是，通用神经网络是极低偏倚的学习系统，它们有许多参数（连接权重），并且可以用来适应各种数据。

这两个原因共同解释了一代 Deep RL 缓慢的原因。而随后的研究表明，这两个原因都可以优化从而允许 Deep RL 以样本效率更高的方式进行。

· Episodic deep RL：通过情景记忆进行快速学习 ·

如果增量式的参数更新是深度强化学习缓慢的一个原因，那么减少增量更新则可以使其变快。

但单纯增加学习率来控制梯度下降优化，则会导致灾难性干扰的问题。所以，最近研究表明可以利用另一种方法实现目标：保留过去事件的明确记录，并直接将此记录用作制定新决策的参考点。这个被称为Episodic RL 的观点与机器学习中的「非参数」方法相似，类似于心理学理论中的「基于实例」或「基于样本」。

当遇到新情景并且必须决定采取何种行动时，系统会将当前情景的内部表示与过去情景的存储表示进行对比，根据与当前最相似的过去情况，然后选择与最高值相关联的动作。当内部状态表示由多层神经网络计算时，我们将得到的算法称为 Episodic deep RL 。

图2 一种情节强化学习算法的例子

Episodic deep RL 使用 Episodic memory 来估计动作和状态的值。该方法的成功取决于状态表示相似性的计算。在后续研究中，Pritzel等人表明，通过使用梯度下降学习逐步形成这些状态表示可以改善 deep RL 的性能。

与标准增量法不同，Episodic deep RL 可以及时利用之前情景事件所获得的信息来指导行为。虽然 Episodic deep RL 学习更快速，但归根结底，它仍然依赖于缓慢的增量学习。这些状态表示本身是通过增量学习而得，使用了相同类型的增量参数更新，才形成了标准深度强化学习的主干网络。最终，通过这种较慢的学习形式实现了快速的 Episodic deep RL ，这表示快速学习的基础正源于缓慢学习。「快速学习的基础是缓慢学习」并不是仅仅在强化学习里有效的巧合。实际上在下文中，DeepMind 进一步说明了这是在心理学和神经科学领域也广泛有效的基础法则。

· Meta-RL：通过学习如何学习来加速 Deep RL ·

如前所述，一代 Deep RL 缓慢的第二个关键原因是弱归纳偏倚。

正如在偏倚和多样性的取舍概念中所形式化的，快速学习要求学习者使用一组合理大小的假设（关于它将面临的模式结构），假设设置越窄，学习速度就越快。然而一个狭义的假设集只在它包含正确的假设的情况下，才会提高学习速率。因此，新的问题就是：学习者如何获得应该采用的归纳偏倚？

显而易见的答案就是：借鉴过去的经验，这也是人类在日常生活中会采用的方法。例如，有一个学习使用新智能手机的任务，在这种情况下，通常我们会将过去使用智能机和其他相关设备的经验，用来帮助我们学习。

利用过去的经验加速新学习的方式，在机器学习中被称为元学习。这个想法源于心理学，它也被称为「学习如何学习」。在第一篇使用「元学习」的论文中，Harlow 提出了一个实验，可以巧妙地捕捉它的原理。

实验中，猴子被提供了两个不熟悉的物体，允许抓住其中一个，并在下面放置食物奖励或空井。然后将物体再次放置在动物之前，可能左右颠倒，并且重复该过程总共六轮；然后换两个新的、不熟悉的物体，又进行了六次试验；接着是另一对物体，依此类推……

在众多物体对中，猴子会发现一个简单的规则总是存在：无论物品左右位置如何，只有一个能产生食物，而另一个物体不能。当呈现一对新的物体时，猴子能够一次性学习，这就是一个简单却形象的「学习如何学习」的例子。

图3 Harlow 的实验

而 AI 通过利用元学习来加速深度学习，这个总体思路已经以各种方式实现。其中，Wang 和 Duan 等研究者提出了一种与神经科学和心理学尤为相关的方法。在这方法中，循环神经网络可以在一系列相互关联的强化学习任务上进行训练。因为网络中的权重调整非常缓慢，所以它们可以得到不同任务中通用内容，但不能快速更改以支持任何单个任务的解决方案。

在这种情况下，循环神经网络的活动动态则可以实现他们独立的强化学习算法，该算法基于过去任务产生的知识「负责」快速解决每个新任务。实际上，一个强化学习算法产生另一个强化学习算法，因此称为「元强化学习算法 meta-RL」。

图4 元强化学习的示意图

与 Episodic deep RL 一样，Meta-RL 再次涉及快速和慢速学习之间的密切联系。循环神经网络的连接在各个任务之间缓慢学习与更新，让跨任务的一般原则能「内置」到循环网络的动态中，由此产生的网络动态实现了一种新的学习算法，则可以实现快速解决新问题。这一方法被慢速学习赋予了有用的归纳偏倚，再一次证明，快速学习源于慢学习并且通过慢学习实现。

· Episodic Meta-RL ·

值得注意的是，以上两种技术并不相互排斥。近期的相关研究探索了一种整合 Episodic deep RL 和 Meta-RL 的方法，使它们实现效益互补，从而得到了 Episodic meta-RL。其中，元学习发生在循环神经网络中，而 Episodic memory 系统则叠加在这之上，其作用是复原该循环神经网络中的活动模式。

与 Episodic deep RL 一样，Episodic memory 系统对一组过去事件进行整合，使其可根据当前情景来查询这些事件。但是，Episodic meta-RL 不是将情景和估值直接连接起来，而是将情景与来自循环神经网络内部或隐藏单元的存储活动模式连接起来。这些模式很重要，因为它们通过 Meta-RL 总结得到智能体与各个任务交互中学到的东西。

在 Episodic meta-RL 中，当智能体处于类似于过去遇到的情况时，它会先恢复之前的隐藏活动，允许先前学到的信息立直接作用于当前策略。实际上，Episodic memory 允许系统识别先前遇到的任务，然后检索已存储的解决方案。

通过老虎机选择任务和导航任务的模拟工作，Ritter 等研究者证实了 Episodic Meta-RL 和原始 Meta-RL 一样，通过学习强大的归纳偏置，实现快速解决新任务。核心关键是，当处理之前发生过的任务时，Episodic Meta-RL 会立即检索并复原之前已有的解决方案，省去重新检索过程；而在首次处理新任务时，系统则充分利用 Meta-RL 的快速性；第二次和之后的处理中，它则受益于 Episodic control 所赋予的一次性学习功能。

· 对神经科学和心理学的启示 ·

正如在一开始所讨论到，样本效率低下被作为质疑深度强化学习与人类和其他动物学习的相关性的理由。从心理学和神经科学的角度来看，Episodic deep RL 和 Meta-RL 的一个重要含义正是证实了 Deep RL 也可以实现快速处理，从而驳回了这一质疑。这样的结果证实了深度强化学习作为人类和动物学习的潜在模型是可行的。除此之外，Episodic deep RL 和 Meta-RL 的细节也引出了心理学和神经科学中有趣的新假设。

从 Episodic deep RL 中，我们会发现它与经典人类记忆模型之间的有趣联系。它为基于实例的处理如何来促进奖励驱动学习提供了合理解释。有趣的是，近期关于动物和人类强化学习的研究越来越多强调了 Episodic memory 的潜在贡献，越来越多的证据表明，状态和行为价值的估计是基于对过去特定行动观察的记忆检索。Episodic deep RL 提供了一个新的思维角度，用于探究这个一般原则如何扩展到多样的、高维的顺序学习问题上；更让人惊讶的是，它突出了表征学习和度量学习在基于 Episodic deep RL 之上，可能发挥的重要作用。这表明对于人和动物中快速片段强化学习与较慢学习过程的相互作用及紧密联系的研究是有成效的。

再谈到 Meta-RL，该算法对心理学和神经科学也有潜在的影响。实际上，Wang 等研究者提出了元强化学习的元素到神经网络结构和功能的直接映射。具体来说，他们提出多巴胺驱动的突触缓慢变化可用于调节前额叶回路的活动，使后者实现独立的学习过程。通过一系列的计算机模拟，Wang 等研究者以 Meta-RL 方式去证明了行为和神经生理学文献中的各种实证研究结果。

Wang 等研究者提出，Meta-RL 可以模拟生物大脑进行学习。他们认为以前额皮层（PFC）为中心的复位神经网络实现了学习的内循环，并且这种内循环算法由多巴胺驱动的突触可塑的外环慢慢形成。

在内循环中，前额皮层是快速学习的核心，其中的神经元用于支持这种学习的变量。例如，Tsutsui 等研究者从觅食任务期间的灵长类动物背外侧前额皮层（dlPFC）记录，当环境变量不断变化时，他们发现个体神经元不仅编码当前选项的值，而且还编码先前采取的行动，先前的奖励以及先前行动与先前奖励的相互作用。这些是在此任务中实施有效学习政策的关键变量。

而在外循环中。中脑多巴胺神经元被认为携带时间差异的奖赏预测误差（RPE）信号。在这个标准理论中，多巴胺驱动对皮层 - 纹状体突触的增量调整，这些调整使动物更容易重复强化行为。这种无模型学习系统通常被视为生活在大多数不同脑区的基于模型的系统的补充。

同样将 Episodic meta-RL 与心理学和神经科学联系起来。该算法涉及的复位机制直接受神经科学数据的启发，表明 Episodic memory 可用于复位大脑皮层的激活模式，包括支持工作记忆的区域。Ritter 等研究者展示了如何通过强化学习的优化配置，从而系统复位先前遇到的任务信息状态。除了从神经科学中汲取的最初灵感外，这项工作还通过为人类学习中最近报道的情节控制和基于模型的控制之间的相互作用提供简约解释而与生物学相关联。在更广泛的层面上，Ritter 等研究者报道的工作举例说明了元学习如何在多个记忆系统上运行，缓慢调整他们的交互，以便他们共同快速学习。

· 快速和慢速 RL：更深远的意义 ·

在讨论 Episodic RL 和 Meta-RL 时，我们强调了「慢」学习在实现快速、样本有效学习方面的作用。在 Meta-RL 中，缓慢的、基于权重的学习，用于建立归纳偏倚来指导推理，从而快速去适应新任务。而在 Episodic RL 中，算法则依赖于对情景或状态之间相似性的判断。缓慢的学习形成了内部表示的方式，从而建立了一系列有关于状态之间联系的归纳偏倚。

进一步观察 Episodic RL ，我们可以发现学习架构中本身就存在归纳偏倚。Episodic RL 独特之处则是：假设一种简单原则，类似的状态通常产生类似的动作。这种归纳偏差不是用于学习，而是连接到定义 Episodic RL 的学习系统结构中。在当前的 AI 中，这是「架构」或「算法偏倚」，与「学习偏倚」有明显的区别。

目前人工智能研究主要集中在寻找有用的归纳偏倚以加速学习，通过学习、手工设计架构或算法偏倚来实现，而最后一种方法则是当下人工智能神经网络兴起的主要原因。其中，卷积神经网络提供了强有力的支持，它构建了一种与图像识别中的平移不变性相关的特殊结构偏倚。

从高层次来看，这些发展与心理学中一些长期存在的问题相似。如你所见，归纳偏倚可能通过学习获得的想法最初源于心理学，并且一直是心理学研究的间歇性话题。而神经网络中的元学习为学习如何学习的机制和动态提供了新的条件，尤其是在 RL 中。

在心理学方面，尤其是发展心理学，也长期以来一直在探索某些归纳偏倚「内置」的可能性，即内在特性。然而，结构偏差以及神经网络学习算法中的内置偏倚的原理概念被考虑得较少，当前的深度学习和深度强化学习的方法则为其提供了一个工具，有助于进一步探索。

值得关注的是，虽然人工智能工作在通过学习获得的归纳偏倚和手工「连接」的偏见之间产生了明显的区别，但从生物学来讲，可以获得更普遍、更统一的观点。具体而言，人们可以将架构和算法偏倚视为由进化驱动的不同学习过程产生的。这里的进化，是一种「缓慢」的学习过程，逐渐形成架构和算法偏倚，从而加快终身学习速度。

因此，元学习不仅在一个生命周期内发挥作用，而且在进化过程也发挥作用。有趣的是，这种观点意味着进化不会选择真正的「通用」学习算法，而是选择大脑在特定环境下的进化规律作为算法。在这样的情况下，AI 的最新发展再次证明其对于神经科学和心理学的探索具有实际意义。无论是专注于手工工程还是进化，AI 在构架和算法偏倚方面的工作为我们提供了一个新的思路——用于对进化是如何形成神经系统从而支持有效学习做进一步研究。人工智能研究提出的可能性包括对神经网络连接初始模式的限制；突触学习规则；和鼓励出现解离或组合表征的因素和内部预测模型。

从心理学，神经科学，进化和发展研究的角度来看，这些研究也绘制出了这样的蓝图：学习在许多时间尺度上同时运行，从几千毫秒到几毫秒之间，随着较慢的时间尺度得到偏差，使其在这之上实现更快的学习，并且所有这些都在进化、发展并且遵循着受环境结构强烈影响的轨迹。从这看来，进化形成了嵌入归纳偏倚的架构和算法；然后这些形成终身学习，它本身就会根据经验发展出进一步的归纳偏倚。

原论文链接：

https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(19)30061-0

先进制造业+工业互联网

产业智能官 AI-CPS

加入知识星球“产业智能研究院”：先进制造业OT（自动化+机器人+工艺+精益）技术和工业互联网IT技术（云计算+大数据+物联网+区块链+人工智能）深度融合，在场景中构建“状态感知-实时分析-自主决策-精准执行-学习提升”的机器智能、认知计算系统；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

云计算+大数据+物联网+区块链+人工智能等工业互联网IT技术分支用来的今天，制造业者必须了解如何将“技术”全面渗入整个公司、产品、业务等商业场景中，利用工业互联网形成数字化、网络化和智能化力量，实现行业的重新布局、企业的重新构建和焕然新生。

工业互联网作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。