直面“认知”挑战，加强“智能”合作—张钹院士等倾情分享|清华AI TIME

2020 年 1 月 16 日 学术头条

嘉宾与主持人合影

2020年1月11日，清华大学-中国工程院知识智能联合研究中心年会暨认知智能高峰论坛在清华大学法学院廖凯原楼隆重召开。

AI Time第十期“论道AI：认知智能的能与不能”于当日下午举行，清华大学张钹院士、阿里巴巴资深算法专家杨红霞、清华大学自动化系助理教授黄高、清华大学计算机系副教授黄民烈围绕感知智能与认知智能的关系，认知智能的典型问题和应用，认知智能的进步和挑战，实现类人智能现在亟待做什么等话题等进行了思辨与讨论。活动吸引了众多在校学生、高校教师、企业技术精英、投资者等相关领域的专家与技术爱好者。

一

人工智能发展史

人工智能的发展分为三个阶段：第一阶段是计算智能，这一阶段的核心问题是存储与计算，先存储大量的数据，然后做高性能的计算等。第二个阶段是感知智能，即能听、会说，能看、会认，现阶段的语音识别、人脸识别、交通标志识别是典型的代表。第三个阶段是认知智能。人类能够认识、处理一段文字，能够理解、翻译一段语音依靠的是认知能力。而在认知智能阶段需要解决的问题是：如何让机器能够真正地去模仿人类，并进行归纳、思考与推理、规划。

感知智能，实际上是涉及机器的视觉、听觉和触觉感知的能力，主要是对生数据的处理，能做一些分类、检测，基于这些做一个初步的决策，特点是数据驱动，属于典型的弱人工智能的范畴。它存在以下三方面的缺陷：一、模型鲁棒性差，加上干扰就能够犯非常低级的错误，但是人是不会犯低级的错误；二、模型的可解释性差；三、缺乏知识积累的能力。智能的物流、自动驾驶，人脸识别、医疗诊断等，都是一些典型的应用场景。

感知智能应用

认知智能，指机器要具备主动思考和理解的能力，它通常跟人的语言、认知和逻辑相关。它的特点为：有归纳的能力，有推理的能力和有知识运用的能力，属于典型的强人工智能。典型应用场景有：智能写作、智能对话等。

认知智能应用

二

认知智能与感知智能的关系

张钹院士

正如张钹院士所讲：“认知智能(Cognitive Intelligence)包括感知智能(Sensation Intelligence)，感知智能是认知智能中的一部分。人类的智能包含三项内容：感性智能、理性智能和行为动作，这三项内容加起来就是认知智能（Cognitive Intelligence）。仔细观察婴儿会发现，婴儿在2岁以前除了吃饭和睡觉，还需要做以下三件事：观察，倾听，动作。这便是以上提到的三个智能：理性、感性、行为。”

杨红霞

阿里巴巴资深算法专家杨红霞从工业具体应用场景阐述了为什么需要认知智能以及如何实现认知智能。基于认知智能的推荐系统，是阿里巴巴下一代的核心技术。现在的千人千面推荐系统只能基于用户过去的行为或者是根据类似的人群行为，最终将用户喜欢的或者曾经喜欢的东西再次推荐给用户，但是仍然不能实现具体场景理解，对用户进行相关性产品推荐。认知智能将会解决这一挑战，并且将是阿里手机淘宝业务具有战略性地位的一件事情。实现认知推理和认知智能，必须具备两个核心要素（1）跨领域的知识图谱和人的常识；（2）强大的推理引擎（GNN System）。

黄高

黄高教授从计算机视觉的角度讨论了现有深度学习在认识方面的不足，分别从双目视觉和医学影像两个具体场景进行了举例。对于双目视觉深度估计的任务，处理图片中镜面或者透明玻璃部分的视距，通过现有的深度学习的方式去做，效果并不好。原因在于算法不太善于根据周围信息实现有无“镜面”或“玻璃”存在的推理。在医学影像分析场景，利用深度学习技术分析核磁共振的血管成像，如果两根血管离得非常近，很容易把它们拼在一起，导致不能有效的辅助医生精确区分血管，这也体现了深度学习方法缺乏对物理世界的认识能力。

三

现状与挑战

张钹院士提到目前深度学习这种方法，只实现了低等动物的水平，但几乎不能够从感性智能上升到理性智能。原因在于并不能实现感知，并且不会积累大量的知识。换句话讲，现在可以做一个识别系统，识别世界上各种各样的动物，识别率可能比人还高，但是系统不认识动物，也就是说没有从感性认识提高到理性认识。围棋（阿法狗）之所以能够战胜人类的原因就是利用深度学习方法，依靠感性认知、靠直觉实现的。目前实现认知智能这个任务仍然非常艰巨，让计算机系统能够从感应提高到理性，或者能够提高到人类认知的水平，还有很长的路要走。

对于实现认知智能，杨红霞认为需要更多的与脑科学家进行深入的探讨，应该学习一下大脑是怎样进行思考的。目前最大的挑战在于如何挖掘知识、对知识进行判断以及如何产生新的知识。现阶段的一个普遍做法是通过自下而上或者自上而下方式进行。自下而上的方法主要是通过多模态学习的方式进行用户意图特征表示。自上而下的方式主要是构建特定领域知识图谱。

黄高讲到目前实现认知智能的主要思想是将数据驱动和知识驱动结合在一起，知识如何获取并且如何将获取的知识与数据驱动方法结合是现阶段面临的挑战。一种有效的解决方案是利用图神经网络。比如将图神经网络与卷积神经网络结合进行视觉图像特征的提取。实现认知智能的另一种途径是借鉴人脑机制，比如注意力机制、记忆机制、遗忘机制等。一种有效的解决方案是构建动态神经网络，此网络具有能够自适应外界能力，即可以根据不同的输入自动改变网络结构或者结构。其好处至少有两点：（1）能够节省计算（2）易于实现可解释性。

黄民烈

四

知识的作用

张钹院士从人类进化的角度对知识在认知智能的作用进行了阐述。知识的作用本质是涉及到学习的问题，关于学习问题可以类比于婴儿学习，在2岁以前做什么。除了吃饭和睡觉，小孩子还需要做以下三件事：（1）观察，对于世界的观察，这是上帝赋予他的任务，必须抓紧时间无监督学习，而且在一个地方待长了就要哭，这也是上帝告诉他的，不能总在一个地方看，必须在好几个地方看。（2）倾听，为什么妈妈总是跟小孩唠叨，这也是母亲的天性，上帝告诉他你必须抓紧时间跟他唠叨，唱儿歌、唱催眠曲等，这也是无监督学习。（3）动作，小孩子几乎一刻不停。这正如之前提到过的三个智能：理性、感性、动作。小孩子必须要在2岁以前完成以上任务，然而目前计算机最擅长的就只是概率统计学习，动作方面计算机也很难完成，倾听还有待提高。这其中的差距，也是人工智能非常重要的内容。

针对这个问题，黄高提到目前在计算机视觉领域主要是利用多模态（看、听、触摸）自监督学习方法去解决遇到的问题，通过不同模态之间的互监督学习，充分利用不同模态之间的一致性等信息。

杨红霞认为人脑为什么学的快有一种猜想是每一个神经元将人类进化几十万年的知识都建立了特定模型进行存储，并且通过few shot/one shot激活，然后基于非常高效的分布式方式将信息扩散。

五

现场嘉宾激烈思辨过程中，观众提问不断

1. 有在尝试拆解神经网络这个黑盒吗？有在尝试解释每一层的权重吗？

对此，杨红霞老师表示，其实是有一定的尝试，有人通过用ODE这个方法去做。

张钹院士认为有研究者试图利用可视化的办法进行模型解释，通过将学习到的特征进行可视化，但是这种方法治标不治本。因为通过可视化的方法展示的特征在大多数情况下不足以来解释结果。以癌症诊断为例进行了说明。当计算机计算完成、诊断有癌症以后，可视化某些特征进行解释说明，但是医生并不认可。原因在于医生并不是根据这些可视化的特征来诊断病情的。

黄高老师基本认同张钹院士的观点，现在有两种常用的解释深度网络的方法：（1）利用常微分方程(ODE)，但是这种方法在现实中往往并不能自洽。（2）利用可视化方法，但由于神经网络的特点是分布式表示，有意义的特征是通过大量的神经元共同表征的，因此很难通过可视化单个神经元去解释深度学习的机理。

2.将知识引入人工智能，但知识的本质是对现实世界抽象的一个子集，知识是多样世界的一个表示，需要收录到机器的知识无穷尽，知识不是生命，不能参与到客观的社会实践中，给机器灌注知识这种方法是否合理？

张钹院士认为这个问题现在从科学的角度来讲，无法进行回答。因为没有充分的科学证据证明你的观点。不主张在科学层面上考虑，可以从哲学的层面上进行讨论。从哲学方面来讨论有没有意义？有没有启发性？因为哲学要解决科学目前还解决不了的问题。应该怎么来考虑，这个在哲学里面分两块：一半说行，一半说不行。应该赞成哪一半？看它说出来的理由。人类的智慧怎么来的？处于低等的动物通过自然的进化，进化出人类的智能。而要用一个机器来做这件事，从哲学上探讨，由低等动物进化到高等（像人类这样的）智能的动物，这已经是事实。走向智能的道路只有这条吗？如果是，那么结论就是机器永远不可能超过人；如果说走上智能的道路有很多条，你便会赞成机器可能会进化出一个智能，但这个智能不会与人类完全一样。张钹院士赞成后者，而大多数人也是赞成后者的。大多数科学家都相信走向智能的道路有多条，条条大道通罗马，因此相信在宇宙空间，肯定有地球之外的生物存在，如果相信这条就相信机器可以不断地进化而产生智能。未来的目标不是要做出与人类一样的机器，而是要做出与人类智能不一样的机器，在实现的过程中，需要千方百计向人类学习，因为人类已经存在，有一个现成的样本可以去学，从而进化出一个机器的智能体，这个智能体在某些方面比人类强，在某些方面比人类弱，这就是我们所需要的。只有这样才能够建立起来人类与机器的和谐社会，也是我们最终的目的。