【CCHI2018 分享】郑南宁院士：如何利用脑认知和神经科学启发，构造一个健壮的人工智能

2018 年 8 月 7 日 中国自动化学会

由国家自然科学基金委员会信息科学部、中国自动化学会和中国认知科学学会联合主办的“第一届认知计算与混合智能学术大会” （ CCHI2018 ）将于 8 月 25 日 - 26 日在西安盛大开幕。届时认知建模与计算、混合智能、受神经科学启发的计算架构与器件、先进感知、智能机器人、无人智能驾驶等领域海内外知名专家共聚一堂，交流相关研究领域的最新成果和发展趋势。

本次大会包含大会报告环节及4个大会专题论坛，共邀请了58位报告嘉宾。今天为大家分享的是大会报告专家——中国自动化学会理事长、中国工程院院士、西安交通大学教授郑南宁过去所作报告：《如何利用脑认知和神经科学启发，构造一个健壮的人工智能》。

此次报告可分为四部分：

1.为什么要实现健壮的人工智能？传统人工智能的局限性是什么？

2.脑认知和网络连接之间的关系是什么？脑认知如何与人工智能结合？

3.脑认知具体是如何工作的？

4.以无人驾驶为例，分析人工智能中的认知与推理是如何解决实际问题的。

以下为报告全文：

人工智能渗透到了社会各个领域，但目前来看，无论是深度学习还是其它方法，解决的都是单一问题。人类大脑是一个多问题求解的结构，怎么从脑认知和神经科学中得到构造健壮的人工智能的启示，国内外都做了非常多有成效的研究。

实现健壮的人工智能的方法

人类面临的许多问题具有不确定性、脆弱性和开放性。今天人工智能的理论框架，建立在演绎逻辑和语义描述的基础方法之上，但我们不可能对人类社会所有问题建模，因为这中间存在着条件问题，我们不能把一个行为的所有条件都模拟出，这是传统人工智能的局限性。

这个局限性主要表现在几个方面：

需要对问题本身抽象出一个精确数学意义上的解析式的数学模型（抽象不出，即归纳为不可解问题）；
需要为已建立的数据模型设计出确定的算法（容易产生诸如 NPC 等问题）；
处理的结果无法表现现实世界所固有的不确定性；
图灵意义下的可计算问题都是可递归的（“可递归的”都是有序的）；
用“度量”来区分模式，只能处理可向量化的数据。

我们要建造一种更加健壮的人工智能，需要脑认知和神经科学的启发。

计算机和人类大脑是为问题求解的物质基础。在智力和计算能力方面，计算机远远超过了人类，但是人类面对的大部分问题都是开放的、动态的、复杂的，大脑在处理这种问题时表现出的想象和创造，还有对复杂问题的分析和描述，是传统人工智能方法所不能企及的，我们只能从人类大脑的神经网络结构中去获得构造新的人工智能的因素。

人类大脑非常奇妙，也正是在这个物质基础之上，才演义出人类世界的发展和为问题求解的各种方法。

右边这幅图简单给出了神经元里的结构模型，神经元的连接并不是像我们一般理解的物理方式，而是靠突出，突出的过程中有一个间隙，这个间隙产生的反应，构成了大脑中奇妙的演进。人类大脑中的思维或学习都是发生在突出这个层面上的。

实际上在大脑的神经网络连接中，不同空间对应不同功能，不同功能在自身内部产生着不同的成本函数。

人出生之后，大脑会不断发展，发展到一定程度，神经元增长到一定数量，又会递减，把不需要的神经元删掉。大脑是慢性记忆神经元，它需要具有高度的容错性。

实际上，人出生时大脑是一样的，如三字经所提到的“性相近，习相远”，6 岁以前，大脑在发育，到 6 岁左右，从生物学角度上讲，这种发育就完成了，大家的记忆力、智商等都是教育上的反应。教育的基础就是大脑。所以，大脑不是通过一个统一的、没有分化的神经网络，来实现单一的全景优化学习的，不同功能和区域会生成不同的成本函数，它是模块化的，同时具有独特的系统来支撑注意、记忆、语言等功能。因此，我们可以从脑认知和神经科学中去获得发展新的人工智能的灵感。

脑认知和人工智能的结合

大脑有 800 亿个神经元容量，它主要有三种研究方式：1.结构研究；2.功能研究；3.有效研究。

大脑的结构连接是静态的，功能连接和有效研究则具有时空动态演化的特性。在视觉和听觉神经网络的区域空间中，功能连接和有效连接是不一样的。

有效连接是针对具体任务的，在同一个视觉功能连接空间中，当我们执行不同视觉任务时，它所形成的神经网络的有效连接是不一样的。有效连接描述了神经元之间的因果与相互影响关系。

从这种结构化的观点来看，我们构造的神经网络还没办法模拟同时具有结构连接、功能连接、有效连接的方式。我们可以通过获取某一区域的活跃程度，或活跃状态，辨别大脑正在执行什么样的视觉任务。知道它在执行什么样的视觉任务，我们就得到了它有效连接的状态，也可以求出它的有效连接在时空演化中的特性。如果能够求出其中的规律，我们就可以设计相应的人工智能方式去实现。也就是说，我们可以采用可触的、动态的、非线性的关系网络进行认知任务的输入。

再对它的科学问题做一个总结，我们要回答出三点：1.大脑是如何实现优化的；2.脑网络的监督训练信号从哪里来；3.在不同的神经功能研究区域中，存在什么样的有效连接的约束和优化。

前面讲了概念，在概念基础上我们要抽象出科学问题，这样才能指导我们进一步的研究，找到解决问题的方法。下面我们谈一下这个方法怎么和现在的方法结合。

去年，谷歌和 MIT 联合发表了一篇文章，文章的中心思想是怎么利用神经科学构造健壮的人工智能系统。我们现在深度学习的基本框架，是通过多层神经网络输入，根据误差来调整连接，这建立在大量数据标注的基础上，通过标记数据得到网络优化的成本函数。

我要强调一点，我们通常讲深度学习是从机器学习发展来的，要构造一个学习机器，关键是在不同区域、不同任务下，怎么去构造一个成本函数。

大脑的认知活动

大脑的认知活动分为三个不同层次：一是哲学，二是形象思维和逻辑思维，三是敏感性。

直觉推理

直觉和敏感都属于创造性思维，警察在破案中，靠的是多年积累和实践，形成的直觉判断。灵感、顿悟与直觉的区别是，直觉是对当前环境的反应，它在人工智能的发展中扮演着十分重要的角色。我们需要一种基于直觉的人工智能，基于直觉的推理。

人的直觉反应实际上是寻找全局最优解。要构造直觉推理，需要两个关键因素：1.构造一个成本函数；2.给出一个决策结构，而这个决策结构就建立在记忆基础上。

人在观察事物时，一定会形成一种与时间相关的影像。如果把直觉推理和数学归纳演绎推理两类机制组合，就可以实现基于认知计算或受神经科学启发的人工智能。

认知推理

我们把认知推理称为直观、朴素的物理推理。物理层面的认知推理可以化解时间与空间，追踪事物的发展轨迹。认知推理的另一个要素在心理层面，简而言之就是学习方向受心理状态的引导。我们需要把物理层面和心理层面的推理嵌入到推理的人工智能系统中。

因果模型

在直觉和认知推理中，我们还需要构造一种模型，其中因果模型是基础。认知计算框架下的因果模型既要满足物理因果关系所产生的物理约束，同时又要让机器理解当前认知任务下的因果关系。

构造一个具体的人工智能系统

直觉推理、认知推理和因果模型是构建健壮的人工智能必须考虑的基本因素。那么如何来构造一个具体的系统？

构造机器人需要三个基本要素：1.对环境中的所有对象进行特征识别，并且进行长期记忆；2.理出对象间的关系，并对它们相互间的作用进行描述；3.基于想象力的行为模型，人在进行具体行动之前，会想象其带来的后果，但机器就需要分析物体之间的各种关系。这三种要素是让机器像人一样理解物理世界的基础。

人工智能要具有想象力，就需要：1.行动之前预想到结果；2.构造一个位置模型；3.给出环境模型，提取有用信息；4.规划想象行为，最大化任务效果。

认知如何解决实际问题

我们在 2000 年初就开始做无人驾驶，有人说要把无人驾驶汽车和城市真实场景的车融合，我们还面临非常艰难的挑战，有相当长的路要走。车联网，V2X，V2V，都一样。在这种局部、动态的场景中，怎样让自动驾驶跟环境融合，确实是一个很大的问题。

无人驾驶的挑战存在于：

必须准确感知周围环境，在所有条件下安全行驶；
必须能够抽象，要完成一种交互情境中的记忆计算；
必须能够理解预行为。

现在绝大多数自动驾驶采取了场景感知与定位，决策规划与控制，这是一种简单的 ADAS 形式，但我们要如何通过新的方法来解决这个问题？

场景感知与情境计算

场景是某个交互场合在特定时间和空间中的具体情境和影像，它可以定义为一种实体。情境是指这种实体随着时间和空间变化而产生的关联。情境计算是对场景各个关联的对象做解释，可以定义为一个行为相关体。

这里的问题就是，第一，要让自动驾驶汽车像人一样理解和记忆，就要具有记忆推理和经验分析的技术；第二，进化发展的自动驾驶，其学习过程要像人类一样熟能生巧。

人类视觉关注的基本机制是选择、组织、整合、编码。

人对变化非常敏感，可以提取交通场景中的显著变化。比如你在开车时，如果右前方突然出现一个骑自行车的人，你的注意力会转移到骑车人身上。在自动驾驶汽车上，我们要构造一个选择性的注意机制网络，对数种图像进行理解，并根据内部状态表示，忽略不相关的对象，选择下一步要采取的动作。

把场景感知和情景认知结合起来，需要我们构建一个模型，融合先进知识概念，实现记忆学习。

场景感知是将通过各种不同属性的传感器获得的不同数据，提供到深度学习中，之后再根据长短期记忆和定位网络，进行情境计算。在这种框架中，我们可以把场景感知和情境计算融合在一起。

一个高效的情景计算要运用实际情境的因果关联，在最前端的数据层面进行有效计算，就需要把数据驱动变成事件驱动。人在开车时，根据情境判断前方可不可以行驶，这就是把数据驱动变成事件驱动。

怎么构造事件驱动？就是把可见光和激光点云数据融合在一起，把三维数据转化成二维图像数据。点云数据给出了每一个生物体的明确的点，二维图像没有深度信息，它是图像的几何形状变化。

把人的数据和激光点云的数据融合，把数据驱动转变为事件驱动，就得出了可行驶数据和不可行驶数据大的划分。

人开车的时候，他在注意什么，我们就来构建一个类似的选择性基础，把同样的场景输入到深度学习网络中，从而提取特征和人的注意力。

来源：雷锋网

中国认知计算与混合智能学术大会报名通道已开启，欢迎广大国内外学者及相关领域各界人士参会，期待您的到来。

往期文章推荐

人工智能名人堂第49期 | 斯坦福研究院名人堂成员：Peter E. Ha

🔗【CCHI2018】大会专题论坛三之受神经科学启发的计算框架与器件详细日程及报告专家一览

🔗【重要通知】2018新一代人工智能高峰论坛将于8月23日在福建漳州举办

🔗【CCHI 2018】大会详细日程安排重磅出炉！

🔗【通知】2018全国第二十三届自动化应用技术学术交流会会议通知

🔗【CCHI2018】大会专题论坛四之先进感知与智能环境详细日程及报告专家一览

🔗【CAC2018】中国自动化大会截稿时间变更至8月30日的通知

🔗【通知】2018年第三届全国建筑机器人技术论坛通知

🔗【征文】首届ABB杯全国智能技术大赛征文中，丰厚的奖励等你拿！

🔗【CCHI2018】首届认知计算与混合智能学术大会专题论坛一报告专家一睹为快！

🔗【CCHI2018】大会专题论坛二之混合增强智能与深度学习最新日程新鲜出炉！

点击“阅读原文”进行大会报名

登录查看更多

相关内容

郑南宁

关注 1

郑南宁，计算机视觉和人工智能专家，西安交通大学人工智能与机器人研究所教授，中国工程院院士，中国自动化学会理事长，IEEE Fellow，国际模式识别协会理事会成员，国际电气电子工程师学会(IEEE)会士。主要从事计算机视觉与模式识别、认知计算、人工智能系统及其先进计算架构等领域的研究。官方网站：http://www.cae.cn/cae/html/main/colys/75813398.html