国内首发！Nature机器智能子刊论文：自动化所新型算法实现AGI重大突破

会员服务 ·

国内首发！Nature机器智能子刊论文：自动化所新型算法实现AGI重大突破

2019 年 8 月 10 日 新智元

新智元报道

来源：中科院自动化所

编辑：小芹

【新智元导读】Nature机器智能子刊今天发表2篇来自中国学者的论文，实现了国内在此期刊上发表论文“0的突破”。中科院自动化所余山团队提出一种新型算法，使人工神经网络具备了强大的连续学习和情境依赖学习能力，有效克服了灾难性遗忘等难题，是面向类人通用智能的一大突破。

通用人工智能最近的突破真不少！

上周，我们报道了清华大学施路平团队开发出全球首款异构融合类脑计算芯片 ——“天机芯”，可以同时支持机器学习算法和现有类脑计算算法，基于此研究成果的论文 “面向人工通用智能的异构天机芯片架构”作为封面文章登上了Nature封面。

就在今天，Nature Machine Intelligence（《自然 - 机器智能》）发表了来自中科院自动化所余山团队的新研究，他们提出一种新型算法， 使人工神经网络具备了强大的连续学习和情境依赖学习能力，有效克服了灾难性遗忘等难题 ，是面向类人通用智能的一大突破。

论文题为《神经网络中情境相关处理的连续学习》(Continual learning of context-dependent processing in neural networks)，作者来自自动化所脑网络组研究中心与模式识别国家重点实验室余山团队，包括共同第一作者曾冠雄和陈阳，崔波以及余山。

具体来说，论文提出了 正交权重修改 (orthogonal weights modification，OWM) 算法 和 情境依赖处理 (context-dependent processing，CDP) 模块 。

OWM 算法可以有效克服神经网络中的灾难性遗忘，实现连续学习；
受大脑前额叶皮层启发的 CDP 模块可以有效整合情境信息，调制神经网络的信息处理过程。

二者的有效结合，使人工神经网络具备了强大的连续学习和情境依赖学习的能力，大大增加了其灵活性和适应性。

余山表示，他们下一步计划把连续学习能力和情境化学习，即“随机应变”的能力用于实际场景，解决实际的问题；同时继续提高这两方面的能力，比如实现复杂情境信息的自动识别等。

据悉，他们的前期工作《基于情境信号的连续多任务学习》在2018 年国际大学生类脑计算大赛中摘得最高奖，收获了 30 万人民币的奖金。

团队在2018国际大学生类脑计算大赛答辩中

值得一提的是，这是中国科研人员在Nature新子刊Nature Machine Intelligence上发表文章“0的突破”，该子刊今年1月上线，可以说是Nature在人工智能、机器学习领域的专门子刊，不过，此前中国尚未有论文在上面发表。

本期Nature Machine Intelligence刊发四篇研究论文，其中两篇来自中国科研人员，另一篇来自清华大学生命学院龚海鹏和澳大利亚格里菲斯大学周耀旗等人团队，他们使用深度神经网络进行了改进蛋白质结构预测方面的工作。

这两篇论文是国内学者首次在Nature机器智能期刊上的发表。

接下来，我们带来这篇论文的详细解读，以及对余山团队的采访。

“智能” 核心要义之一：对于复杂环境的高度适应性

人工智能已成为 21 世纪最具挑战性的前沿科学领域之一，但究竟什么是 “ 智能 "？

图灵奖得主 Allen Newell 和诺贝尔奖得主 Herbert A. Simon 曾经联合撰文将智能定义为 "适应环境变化，实现自身目的"，DeepMind 的联合创始人之一 Shane Legg 总结了数十种智能的定义，提出智能的通用衡量指标应该是在不同的环境中实现特定目的的能力。

从中可见， 个体对复杂、动态环境的高适应性是智能的重要标志 。

人类大脑显然是高环境适应性的典范。人不仅可以在新的环境中不断吸收新的知识，而且可以根据不同的环境灵活调整自己的行为。

在此方面，深度神经网络 (deep neural networks，DNN) 与大脑相比存在着很大的差距。

传统 DNN 一方面会受到 "灾难性遗忘" 问题的困扰，难以在学习新知识的同时保留旧知识，即 缺少连续学习 (continual learning) 的能力 ；

另一方面，DNN 往往只能实现预先训练好的固定操作，不能对实际环境中存在情境信息 (比如自身状态，环境变化、任务变化等) 做出灵活的响应，难以满足复杂多变的需求，即 缺少情境依赖学习 (contextual-dependent learning) 的能力 。

这两方面能力的缺失是制约当前 DNN 发展出高水平智能的重要瓶颈。

克服两大瓶颈，新算法增强 DNN 环境适应性

本研究在克服上述两个核心问题方面取得了重要进展，为提高人工智能系统对于复杂多变环境的适应性提出了新的思路和方案。

论文提出了 正交权重修改 (orthogonal weights modification，OWM) 算法 和 情境依赖处理 (context-dependent processing，CDP) 模块 。

OWM 算法可以有效克服神经网络中的灾难性遗忘，实现连续学习；

受大脑前额叶皮层启发的 CDP 模块可以有效整合情境信息，调制神经网络的信息处理过程。

二者的有效结合，使人工神经网络具备了强大的连续学习和情境依赖学习的能力，大大增加了其灵活性和适应性。

OWM 算法的核心思想：

在学习新任务时，只在旧任务输入空间正交的方向上修改神经网络权重。如此，权重增量几乎不与以往任务的输入发生作用，从而保证网络在新任务训练过程中搜索到的解，仍处在以往任务的解空间中。OWM 通过正交投影算子 P 与误差反传算法得到的权重增量作用实现其目的，即最终的权重增量为。

图 1：OWM 算法原理示意图。(a): 在权重更新时，OWM 算法只保留传统 BP 算法计算的权重增量中与历史任务输入空间正交的部分。(b): 在新任务中，OWM 算法将神经网络对解的搜索范围约束在旧任务的解空间中。

OWM 算法实现了对网络中已有知识的有效保护，并可以与现有梯度反传算法完全兼容 ，在连续学习测试任务中表现出了良好的性能 。在连续学习的标准任务 disjoint MNIST 与 shuffled MNIST 任务中，OWM 算法的表现超过了同类的其他算法。并且，随着学习的任务数目增加，OWM 算法的性能优势会进一步加大。

利用 OWM 算法，神经网络可以连续学习识别 ImageNet 的 1000 类图片和 3755 个中文手写体汉字 (每个任务仅训练一类图片或一个汉字)。值得一提的是，算法具有优良的小样本学习能力，以手写体汉字识别为例，基于预训练的特征提取器，系统可以从仅仅数个正样本中就能连续的学习新的汉字。

图 2：在连续学习 MNIST 手写体数字 0-9 的任务中，随着任务数目的增加，OWM 算法的优势也愈加明显。同时，任务的学习顺序会对个别任务产生影响。如先学数字 4 和 7，会显著提升数字 9 的识别正确率。

图 3：OWM 算法在 ImageNet 和中文手写体汉字识别的连续学习任务上体现出优良的性能

图 4：OWM 实现汉字识别的小样本连续学习

CDP 模块的核心思想：

CDP 模块 则是受前额叶皮层启发提出的。前额叶是大脑中负责认知控制的核心皮层。其同时接收感官输入和情境信号，并选择与当前任务最相关的感官信号指导输出响应。

受此启发，作者引入了类似的处理架构 —CDP 模块，它包括两个子模块：1. 编码子模块，其负责将情境信息编码为适当的控制信号；2."旋转" 子模块，其利用编码模块的控制信号处理任务输入 (由于其功能上相当于将特征向量在高维空间上进行了旋转，故称为 "旋转" 子模块)。

图 5：类前额叶的 CDP 模块的结构设计。左上角是其工作原理示意图。

若将 CDP 模块与 OWM 算法联合使用，神经网络只需要一个分类器，就可以连续学习 40 种不同的脸部特征的识别任务。并且，当不同的提示信号出现时，其对相应的特征做出判断，效果与引入 40 个分类器的情况相当。

图 6：同一个分类器对于同样的输入，连续学习 40 种不同人脸属性的分类任务 (蓝色数据点)，正确率与用 40 个分类器的系统 (橙色线) 几乎一致

通过 OWM 算法有效克服灾难性遗忘，并通过 CDP 模块实现单个网络基于情境信号的多任务学习，二者结合有望让智能体通过连续不断的学习去适应复杂多变的环境，从而逐步逼近更高水平的智能。

专访余山：让AI在实际场景中“随机应变”

解决“灾难性遗忘”意味着什么？让AI具有“随机应变”的能力有多重要？带着这些问题，新智元第一时间采访了余山团队。

新智元：这篇论文是关于新型算法解决“灾难性遗忘”的，“灾难性遗忘”是什么？可以给我们举例说明一下吗？

余山： “灾难性遗忘”指的是人工神经网络模型在学习新的任务后，往往会影响以前学习过的旧任务的表现。比如可以先教会网络识别数字0，然后再教网络识别数字1，认识1之后，网络对于前期学过的数字0往往不再能识别了，即“遗忘”了以前学过的知识。

这个问题的本质原因是神经网络学到的知识是储存在网络的连接权重中的，在学习新任务的过程中，改变了网络的权重，同时也 “擦除”了原来学会的知识。

新智元：灾难性遗忘现今仍然是阻碍科学家构建通用人工智能的主要障碍，是这样吗？解决这个问题有多重要？

余山： 灾难性遗忘是构建通用人工智能的重要障碍之一，因为灾难性遗忘的存在，网络难以在保留旧知识的同时，不断的学习新的知识。这就限制了人工智能系统在动态环境中的适应性，因为这样的环境中随时可能遇到新的情况，需要学习新的知识。

我们的研究提出了能够有效克服灾难性遗忘的一种新方法，使系统体现出良好的连续学习性能。当然，“灾难性遗忘”是一个重要的困难问题，它的最终解决也是一个过程，我们的工作是这个过程中的一步。

新智元：提出OWM算法的过程中，你们受到了哪些启发？

余山： OWM算法的提出主要收到了RLS算法的启发，RLS算法是最早由德国数学家高斯提出的一个古老的算法，一般是用于滤波器的构建。我们发现它能够有效的缓解网络中的灾难性遗忘，然后进一步研究了其工作机理并加以改进而得到了OWM算法。

新智元：OWM 算法的性能表现怎么样？

余山： OWM 算法表现出了优良的连续学习性能，在几个标准数据集上的表现明显优于其他克服灾难性遗忘的方法。OWM 算法也具有很好的可扩展性，可以支持网络连续的学习数千类不同的映射。重要的是，OWM 算法还具有较好的小样本学习能力。这些特性将有利于构造一个能在动态变化环境中连续、快速学习新知识的系统。

新智元：之前，DeepMind的研究(Functional Regularisation for Continual Learning)据称解决了灾难性遗忘难题，你们的算法跟DeepMind的相比有哪些不同？分别从什么方面思考的？

余山： 克服灾难性遗忘难题近年来是研究的热点，包括DeepMind在内的众多研究团队都投身其中。在上述研究中，为了保留对于旧任务的“记忆”，DeepMind的研究人员提出了为每个旧任务保留一些特征信息，这一做法的局限在于需要额外的信息存贮空间，随着学习任务数目的增加，这个存贮的负担也越来越重。

在OWM 算法中，无论以前学过的任务有多少，只需要存贮一个固定大小的正交投影算子。这对于构造一个小巧但是能连续学习众多任务的系统会非常有利。

新智元：这个研究有哪些贡献和意义？

余山： 上面介绍了克服灾难性遗忘问题的意义。其实在我们这个研究中，除了克服灾难性遗忘，还有一个重要的贡献是提出了一套机制，能够让神经网络能学会“随机应变”。

目前的神经网络的优点是可以建立输入输出之间非常复杂的映射规则，用于识别、分类和预测。但是一旦学习阶段结束，它所能作的操作就固化了，不能根据任务、环境、状态等因素的变化灵活的使用已经学到的映射，这使得目前的网络难以用在规则随着各种条件会随时变化的场景。我们知道“随机应变”是人类智能的一个重要方面，这个能力神经科学的术语叫做“认知控制“，主要是由大脑前额叶控制的。前额叶接受众多的感觉输入，然后根据情境信息选择与当前任务最为相关的信息用于行为控制。

受此启发，我们引入了一个新的模块，使得网络能够灵活的学习在什么情况下应该做什么，后续再遇到相似的情况就能做正确的事。这个“随机应变”的能力再加上上面介绍的连续学习的能力，使得网络应对复杂动态环境的能力大大增强。

新智元：您对通用人工智能如何看待？通往AGI的道路还有哪些障碍？最近OpenAI认为只要计算能力足够强大，5年内就能实现AGI，让AI达到人脑水平的智能，您如何看待这一观点？

余山： 通用人工智能是一个很宏大的目标，目前探索的路上还有很多障碍，灾难性遗忘、小样本学习等是近年来比较受到重视的问题，其他障碍还包括常识的积累，语义的理解，逻辑与推理等等。

认为只要有足够的计算能力就能在5年内实现通用人工智能听起来是过于乐观了。第一，很多关键问题的解决需要好的算法，不是单纯的算力能够解决的；第二，要是认为有足够的计算能力就可以让系统自己演化出好的算法则是低估了这个过程对算力的需求。比如人脑是在漫长的进化过程中通过自然选择找到的算法，但是这个过程中搜索与试错的规模，远远超出了目前人类能够获取的计算能力。

新智元：请介绍一下团队成员吧。

余山： 这个工作的共同第一作者是曾冠雄和陈阳。冠雄今年六月份刚刚硕士毕业，他负责所有的程序实现，并提出了CDP模块的计算方法和理论解析。陈阳参与这个工作的时候是博士后，现在已经是我们自动化所的助理研究员，他对于OWM算法的机理做了深入的理论分析，也为其他几个关键问题的解决做出了贡献。另外博士生崔波参与了一些分析和计算的工作。我主要的作用是提出类脑的思路，然后在遇到瓶颈和困难的时候给大家打气。

新智元：你们的下一步计划是什么？

余山： 一方面我们很有兴趣把连续学习能力和情境化学习，即“随机应变”的能力用于实际场景，解决实际的问题，另一方面我们会继续提高这两方面的能力，比如实现复杂情境信息的自动识别等。

论文链接：

Continual Learning of Context-dependent Processing in Neural Networks

Guanxiong Zeng, Yang Chen, Bo Cui & Shan Yu

原文页面：

https://www.nature.com/articles/s42256-019-0080-x

全文阅读：

https://rdcu.be/bOaa3

本文论文解读部分来自自动化所余山团队的撰文，发表于自动化所公众号，请点击阅读原文查看。