【人工智能】张钹院士:走向真正的人工智能 ;中国AI机遇和挑战

2018 年 7 月 2 日 产业智能官

6 月 29 日上午,清华大学研究院院长张钹院士为 CCF-GAIR 2018 主会场「AI 前沿技术」做了题为「走向真正的人工智能」(Towards A Real Artifitial Intelligence)的大会报告。以下为张钹院士所做的大会报告全文,感谢张钹院士逐字修改。


CCF-GAIR 2018 程序主席朱晓蕊:大家好,我们大会第一个环节的题目是「AI 前沿技术」。最近几年 AI 一直都很热,很多人都会问,这个 AI 到底能热多久?我想其中一个很重要的因素就是 AI 的前沿技术到底能做得有多么深入。因此我建议大家今天不妨仔细听听下面几位嘉宾的演讲,或许大家能从中得到一些答案。


首先有请清华大学张钹院士为我们作大会报告。张院士是中国科学院院士、清华大学教授,现任清华大学人工智能研究院院长,张院士主要是从事人工智能理论、人工神经网络、遗传算法、分形和小波等理论研究,以及把上述理论应用于模式识别、知识工程、智能机器人与智能控制等领域的应用研究,他今天的报告题目是「走向真正的人工智能」,有请张院士。 

张钹:各位领导、各位专家,今天给我 45 分钟的时间,我讲 40 分钟,因为会议的议程已经延迟了。


我今天要讲的中心思想就是:我们现在离真正的人工智能还有一段很长的路。为了讲清这个思想,我必须回答下面三个问题:第一,什么叫做真正的人工智能?我们的目标是什么?第二,为什么我们需要真正的人工智能?第三,我们如何走向真正的人工智能?我现在回答这三个问题。


首先我们如何评价目前人工智能取得的成果,我们的评价很简单,针对这 5 件事:


第一是深蓝打败人类国际象棋冠军;第二是 IBM 在电视知识竞赛中打败了美国的前两个冠军,这两件事是一种类型,后面的三件事是另外一种类型;即 2015 年微软在 ImageNet 上做图象识别,它的误识率略低于人类。还有百度、讯飞也都宣布在单句的中文语音识别上,它的误识率也略低于人类。还有一个是大家非常熟悉的 AlphaGo 打败了李世石。这 5 件事情都是机器在一定的范围内超过了人类,我们如何来评价这 5 件事?


大家一致认为这 5 件事之所以成功,是由于前面三个因素,一是大数据,二是计算能力提高,第三是有非常好的人工智能算法。这三个因素大家都讨论得非常多了,没必要我再来说,我现在要说的最后一个因素是被大家所忽略的,这个因素是说,这所有的成果必须建立在一个合适的应用场景下。这 5 件事虽然领域很不一样,但是它们都满足完全一样的条件,或满足下面的 5 个限制,首先你必须有丰富的数据或者丰富的知识,如果这两件东西没有,或者很少,你不用来谈人工智能,因为你无法实现无米之炊。人工智能唯一的两个资源,一个是数据,一个是知识。还有确定性信息、完全信息、静态的、单任务和有限领域。这 5 个条件里面任何一个条件不满足,现在的人工智能做起来就非常困难了。


大家想想这 5 个限制条件下的应用场景是什么样的应用场景?就是照章办事,不需要任何灵活性,这显然不是智能的核心。


我们现在分析一下上述 5 个场景。下象棋是完全信息博弈,信息完全和确定,没有问题。其次,它遵循着完全确定的游戏规则演化,我们把这种情况也叫做静态。Watson 机器人也是这样,Watson 是什么样的对话问题呢?它为什么选择知识竞赛呢?我们知道知识竞赛提的问题都没有二义性,都是明确的,它的答案总是唯一性的。所以这样的问答对机器人来讲是非常容易的。它涉及的领域虽然比较宽,但也是有限的,包括大家觉得很玄乎的围棋,也完全符合上面 5 个条件,所以对计算机来说也是很容易的。目前计算机打麻将就不行,因为牌类是不完全信息博弈,所以比棋类要难。总之,我们对目前人工智能取得的成果要有一个正确的评价。


目前的人工智能技术在以下领域都可以找到它的应用,它们是交通、服务、教育、娱乐等等,但我要强调是这些领域里面只有满足上述 5 个条件的事情,计算机做起来才会容易,如果不满足这些条件,计算机就做起来就困难了。大家常常关心什么样的工作会被机器所替代,我可以明确告诉大家,满足这 5 个条件的工作,总有一天会被计算机取代,就是那些照章办事,不需要任何灵活性的工作,比如说出纳员、收银员等等。在座的所有工作都不可能被计算机完全代替,但不排斥你的工作中有一部分会被计算机取代,老师、企业家等的工作不可能被计算机完全代替。


为什么有这 5 个限制?原因在于我们现在的人工智能是没有理解的人工智能。


我们先看符号模型,理性行为的模型,举 Watson 的例子,它是个对话系统,我们现在所有做的对话系统都跟这个差不多,但是 Watson 做得更好些,它里面有知识库,有推理机制。沃森除了专家知识之外,还有大量互联网上大众的知识,还运用了多推理机制。请看,这就是 Watson 系统的体系结构。它里面有哪些知识呢?有很多,包括百科全书、有线新闻、文学作品等等。所有的知识用纸质来表示有 2 亿页,用存储量表示达到了 4TB。它能回答什么问题呢?用它的例子来说明。第一个问题,1974 年 9 月 8 日谁被总统赦免?这对美国人来讲很好回答,同样对计算机来讲也很好回答,你用这几个关键字「1974 年 9 月 8 日」、「被总统赦免」,就能在文献里头查出来是谁,他就是尼克松。也就是说根据问题中的关键字,可以在已有的文献里头直接找到答案,这就是一般的网络检索方法。


第二个问题,荧光粉受到电子撞击以后,它的电磁能以什么方式释放出来?我们用「荧光粉」、「电子撞击」、「释放电磁能」等关键词,也可以找到答案:「光或者光子」。这种方法就是平时网络搜索的原理,应该说没有什么智能。


回答下面的问题就需要「智能」了,跟智利陆地边界最长的是哪个国家?跟智利有陆地边界的国家可以检索到,它们是阿根廷和玻利维亚,但是谁的边境长?通常查不到。Watson 具备一定的推理能力,它从边界间发生的事件、边界的地理位置等等,经过分析推理以后就可以找出答案,它就是阿根廷。下一个问题也属于这种性质,跟美国没有外交关系的国家中哪个最靠北,跟美国没有外交关系的国家有 4 个,只要检索就行了,但是哪个国家最靠北,没有直接答案,但可以从其它信息中推导出来,比如各个国家所处的纬度、气候寒冷的程度等等分析出来,答案是北朝鲜。


智能体现在推理能力上。但是很不幸,现在的对话系统推理能力都很差。Watson 系统好一些,但也很有限。换句话说,我们现在的对话系统离真正的智能还很远。


我们通过索菲亚机器人就可以看出来,索菲亚的对话是面向开放领域,你可以随便提问,问题就暴露出来了。大家在电视上看到索菲亚侃侃而谈,问什么问题都能答得很好,这里面有玄机,如果你的问题是预先提出来的,因为里头有答案,因此回答得非常好,在电视上给大家演示的都是这种情况。


如果我们临时提问题,问题就出来了。这是一个中国记者给索菲亚提的 4 个问题,它只答对了一个。「你几岁了」,这个问题很简单,它答不上来,它的回答是「你好,你看起来不错」,答非所问,因为它不理解你所问的问题。只有第二个问题它是有准备的,里面有答案,所以答得很好。「你的老板是谁」,这个肯定它有准备。第三个问题,「你能回答多少问题呢」?它说「请继续」,没听懂!。再问第四个问题,「你希望我问你什么问题呢」?它说「你经常在北京做户外活动吗」?这就告诉我们说,现代的问答系统基本上没有理解,只有少数有少量的理解,像 Watson 这样算是比较好的。


为什么会这样?也就是说我们现在的人工智能基本方法有缺陷,我们必须走向具有理解的 AI,这才是真正的人工智能。我这里提出的概念跟强人工智能有什么区别?首先我们说它在这点上是相同的,我们都试图去准确地描述人类的智能行为,希望人工智能跟人类的智能相近,这也是强人工智能的一个目标,但是强人工智能只是从概念上提出来,并没有从方法上提出怎么解决。大家知道强人工智能提出了一个最主要的概念,就是通用人工智能。怎么个通用法?它没有回答。我们现在提出来的有理解的人工智能是可操作的,不只是概念,这是我们跟强人工智能的区别。


人机对话的时候,机器为什么不能理解人们提的问题。我们看一个例子就知道了,我们在知识库里把「特朗普是美国总统」这个事实,用「特朗普-总统-美国」这三元组存在计算机里面,如果你提的问题是「谁是美国总统」?机器马上回答出来:「特朗普」。但是你如果问其它有关的问题,如「特朗普是一个人吗」?「特朗普是一个美国人吗」?「美国有没有总统」?它都回答不了。它太傻了,任何一个小学生,你只要告诉他特朗普是美国总统,后面这几个问题他们绝对回答得出来。机器为什么回答不了后面的三个问题呢?就是这个系统太笨了,没有常识,也没有常识推理。既然特朗普是美国的总统,美国当然有总统,但是它连这一点常识的推理能力都没有。所以要解决这个问题,必须在系统中加上常识库、常识推理,没有做到这一步,人机对话系统中机器不可能具有理解能力。但是大家知道,建立常识库是一项「AI 的曼哈顿工程」。大家想想常识库多么不好建,怎么告诉计算机,什么叫吃饭,怎么告诉计算机,什么叫睡觉,什么叫做睡不着觉,什么叫做梦,这些对人工智能来说都非常难,美国在 1984 年就搞了这样一个常识库的工程,做到现在还没完全做出来。可见,要走向真正的人工智能,有理解的人工智能,是一条很漫长的路。


这里介绍一点我们现在做的工作,加入常识以后,对话的性能会不会有所改善。我们的基本做法是建立一个常识图谱,用这个图谱帮助理解提出的「问题」,同时利用常识图谱帮助产生合适的答案。


下面就涉及到具体怎么做了,我不详细说了,我就说结果,结果是有了常识以后,性能有了显著的改善,对话的质量提高了。这篇文章已经发表,有兴趣可以去阅读。


另外是准符号模型,深度学习、神经网络主要用来模拟感性行为,感性行为是一般很难采用符号模型,因为感性(感觉)没法精确描述。比如「马」,怎么告诉计算机什么叫做马?你说马有四条腿,什么叫做腿?你说细长的叫做腿,什么叫细?什么叫做长?没法告诉机器,因此不能用符号模型。目前用的办法就是我们现在说的神经网络或者准符号模型,也就是用人类同样的办法,学习、训练。我不告诉机器什么叫做马,只是给不同的马的图片给它看,进行训练。训练完以后,然后再用没见过的马的图片给它看,说对了,就是识别正确了,说不对就是识别不正确,如果 90% 是对的,就说明它的识别率是 90%。后来从浅层的神经网络又发展到多层的神经网络,从浅层发展到多层有两个本质性的变化,一个本质性的变化就是输入,深层网络一般不用人工选择的特征,用原始数据就行。所以深度学习的应用门槛降低了,你不要有专业知识,把原始数据输进去就行了。第二个是它的性能提高很多,所以现在深度学习用得很多,原因就在这个地方。


通过数据驱动建立的系统能不能算是有智能呢?必须打一个很大的问号,就是说你做出来的人脸识别系统甚至识别率会比人还高,但是我们还不能说它有智能,为什么呢?这种通过数据驱动做出来的系统,它的性能跟人类差别非常大,鲁棒性很差,很容易受干扰,会发生重大的错误,需要大量的训练样本。我们刚才已经说过,给定一个图像库我们可以做到机器的识别率比人还要高,也就是说它可以识别各种各样的物体,但是这样的系统,我如果用这个噪声输给它,我可以让它识别成为知更鸟,我用另外的噪声输给它,可以让它识别成为猎豹。换句话讲,这样的系统只是一个机械的分类器,根本不是感知系统。也就是说它尽管把各种各样动物分得很清楚,但是它不认识这个动物,它尽管可以把猎豹跟知更鸟分开,但是它本质上不认识知更鸟和猎豹,它只到达了感觉的水平,并没有达到感知的水平,它只是「感」,没有上升到「知」。我们的结论是,只依靠深度学习很难到达真正的智能。这是很严峻的结论,因为如果有这样的问题,在决策系统里头是不能用这样的系统,因为它会犯大错。我在很多场合讲过,人类的最大的优点是「小错不断、大错不犯」,机器最大的缺点是「小错不犯,一犯就犯大错」。这在决策系统里头是不允许的,这就显示人跟机器的截然不同,人非常聪明,所以他做什么事都很灵活,这就使得他很容易犯各种各样的小错。但是他很理性,很难发生大错。计算机很笨,但是很认真,小错误绝对不会犯,但是它一犯就是天大的错误。刚才把那个把噪声看成知更鸟,这不是大错吗?你把敌人的大炮看成一匹马,不是大错吗?但是人类不会发生这种错误,人类只会把骡看成驴,但是计算机的识别系统会把驴看成一块石头。原因在哪儿?原因还是 AI 的理解能力问题。


我们看这个自动驾驶,过去讲得很多,而且讲得很乐观,我们看看问题在什么地方。我们现在是这样做,我们通过数据驱动的学习方法,学习不同场景下的图象分割,并判别是车辆还是行人、道路等,然后建立三维模型,在三维模型上规划行驶路径。现在用硬件已经可以做到实时,请问大家,这样能不能解决问题?如果路况比较简单,行人、车辆很少,勉强可以用。复杂的路况就用不了。什么原因?非常简单,好多人总结出这个经验,行人或者司机都会有意无意破坏交通规则,包括外国人也一样,中国人更严重一点。这就使得数据驱动方法失效,比如说我们可以用数据驱动方法来了解各种各样行人的行为,我们可以通过大量进行训练,都训练完以后,如果出现新的情况呢?计算机能理解这是人从底下钻过来,很危险吗?所以你不可能把所有情况都训练到。自动驾驶不可能对付突发事件,如果这个突发事件它没见过,它就解决不了。怎么来解决这个问题呢?实际上就是要解决从「Without」到「With」理解的问题。人工智能现在有两种基本方法,一种是用符号模型来模拟理性行为,符号模型可以表达信息的内容,所以它是在一个语义的符号空间里头,但是非常不幸,这个离散的符号表示,数学工具很难用,很多数学工具用不上去,所以它发展很慢。在模拟感性行为的时候,我们用的是特征空间的向量,向量就是数,可以把所有的数学工具都用上,优化的工具、概率统计的工具全部用上。所以数据驱动方法这几年发展非常快,再难的问题,下围棋非常难吧,计算机也可以「算」出来。但是它有一个非常大的缺陷,它是在特征空间里,缺乏语义。我们用数据去训练一个模型,所谓「黑箱学习法」,加上你的数据质量不高,很难学出有用的东西。什么叫概率统计?重复多了就是真理。如果数据质量差,充满了「谎言」。谎言重复多了,就变成真理了。


我们现在想出的解决办法是这样的,就是把这两个空间投射到一个空间去,这个空间叫做语义的向量空间。也就是说我们把符号变成向量,同时把特征空间的向量变成语义空间的向量。怎么做?一是通过 Embedding(嵌入)把符号变成向量,尽量保持语义不变,可惜现在的方法都会引起语义的丢失,我们只能在投射的过程中让语义丢失得少。第二方面做的工作比较少,就是 Raising(提升),把特征空间提升到语义空间去,这主要靠学科交叉,靠跟神经科学的结合。只有这些问题解决以后,我们才能够建立一个统一的理论,因为过去的感知和认知是不同的处理方法,大家说不到一块,如果我们能够投射到同一空间去,我们就可以建立一个统一的理论框架,这是我们的目标。在语义空间处理就可以解决理解问题,但是这项工作是非常艰巨的。


介绍一项我们现在做的工作。人工神经网络为什么不能得到语义信息呢?人脑的神经网络为什么可以呢?差别就在这里,我们现在用的人工神经网络太简单了,我们正想办法把脑神经网络的许多结构与功能加进去,我们这里只用了「稀疏发电」这一性质,就可以看出一些效果,人脸、大象或者鸟的轮廓,神经网络可以把它提取出来。


还有一个办法就是把数据驱动跟知识驱动结合起来。刚才讲了,人的智能没法通过单纯的大数据学习把它学出来,那怎么办?很简单,加上知识,让它有推理的能力,做决策的能力,这样就能解决突发事件。我们现在做的工作就是把这些结合起来,这是我们的基本思路,知识也好,数据也好,都投射到同一空间,然后都用同样的数学方法进行处理,这方面我们已经做了不少工作。


最后做一个总结,我们从这个坐标看人工智能,横轴代表领域的宽窄,从单领域到多领域、到开放领域。纵轴代表信息的确定性与完全性,从完全到不完全、从确定到不确定。在左下角代表最容易的,就是刚才讲的符合 5 个条件的,现在人工智能在这部分解决得非常好,我们用白色来表示它,AlphaGo 在这里,深蓝在这里,工业机器人在这里。现在我们正在向灰色地区去走,打牌,信息不完全,现在打德州扑克,一人对一人,计算机能战胜人类,多人对弈,计算机还不行,这是灰色地带,我们还可以做,为什么可以做?尽管打牌是不确定的,但是它在概率意义下是确定的,你拿的这副牌的概率,可以算出来,同花的概率是多少,排成顺的概率是多少,既然概率能算出来,最终人类肯定会被计算机打败。Watson 在右边,它的领域比较宽,但是它是确定性的,所以是在灰色的区域。往右上方去就比较难了,自动驾驶、服务机器人、大数据分析,它是一个大框,有的简单,有的困难,就自动驾驶来讲,专用道、行车很少,路况简单等,在白色或者灰色区,如果路况复杂就到了黄色区域,黄色区现在计算机还解决不好。最远的在哪儿呢?右上角,图灵测试。大家对图灵测试有很多误解,其实图灵测试是开领域问答,很难!索菲亚做得怎么样?很糟糕。自然语言理解也在这里,复杂环境下的决策在偏左一点的地方,这也是很难的。所以我们人工智能现在是从左下角往右上角走,我们现在处在出发点附近。有的人想把它用一些名词来区分人工智能的不同发展阶段,有专家问我,你的看法怎么样?我建议不要用新词,用新词往往说不清,很麻烦,有的人说现在是弱人工智能,以后是强人工智能,也有人说现在叫增强智能(Augmented Intelligence)也是 AI……概念太多说不清,还是简单一点,「我们正在通往真正 AI 的路上」,现在走得并不远,在出发点附近,人工智能永远在路上,大家要有思想准备,这就是人工智能的魅力。大家为什么这么重视人工智能?因为我们永远在路上,这就吸引我们去解决这些问题,这些问题一旦解决了,人类的社会进步、人类的生活就会发生本质上的改变。


最后我用中文写最后一段作为总结,可惜我翻译不了。

周穆王西巡狩,路遇匠人名偃师。翌日偃师谒见王,偕来一个假人。「趋步俯仰,信人也」。「领其颅,则歌合律;捧其手,则舞应节。千变万化,惟意所适。王以为实人也,与盛姫内御并观之,技将终,倡者瞬其目而招王之左右侍妾。王大怒,要杀这个偃师。偃师大慑,立剖其倡者以示王,皆傅会革、木、胶、漆、白 、黑、丹、青之所为。穆王始悦,诏贰车载之以归。


这是 3000 年前我们古人对机器人的想象,看看现在的人工智能做得怎么样呢?索菲亚是我们现在达到的水平,可是她不会唱歌、不会跳舞,只会说英文,周王也听不懂,肯定没有印象。现在我们假设索菲亚「瞬其目而招王之左右侍妾」,向周王的姨太太们送去秋波,王会如何呢?我认为没反应,因为索菲亚是女的,他用不着吃醋。但是我们假设索菲亚「瞬其目而招王」,向大王送去秋波,王会大悦,立即神魂颠倒,坠入爱河?我认为不会,因为索菲亚根本不像人,它最近才刚刚安上手脚,走路都不利索,怎么行呢?所以我的结论是,「索菲亚通不过穆王的测试,当然它更通不过图灵测试」。


我们的结论是什么?人工智能刚刚起步,离真正的 AI 还很遥远,大家共同努力吧,我们任重道远。


来源:雷锋网



张钹院士:中国AI机遇和挑战


人物小传

张钹:CCF会士,2014CCF终身成就奖获得者,中国科学院院士,计算机专家。主要从事人工智能理论、人工神经网络、遗传算法、分形和小波等理论研究,以及把上述理论应用于模式识别、知识工程、智能机器人与智能控制等领域的应用技术研究。



在首届世界智能大会上,中国科学院院士张钹发表了题为《基于大数据的人工智能》演讲,分享了中美人工智能差异、深度学习成功的三大法宝、隐患与短板以及中国如何实现人工智能基础研究赶超欧美等话题的见解。


人工智能基础研究中美相差甚远

如今,人们经常会向研究人工智能的人提出问题:和国际先进水平相比,中国的人工智能处于什么位置?不少人给出的答案:和世界人工智能差距不是很大,这几年,中国在学术研究方面也取得了很多进展,在重要的国际会议、重要的期刊杂志上,中国的(论文)文章也占了相当的比重。中国有数量庞大的网民,在网络数据上占有相当优势的地位,而且中国市场有如此大的需求,所以最后的结论是:中国赶上和超过世界人工智能的最高水平,必须也是可以做到的。


这个答案对不对?今天的报告就是要回答这个问题,我的回答是“不完全对”。首先,中国的人工智能,研究、开发、产业水平,跟世界相差不大,这句话不完全(对),在基础、算法的研究上,中国和世界(顶尖)水平还相差甚远,这个是不争的事实。人工智能在1956年(诞生)成立的时候,是美国人建立的学科,这61年中,一直是美国在引领人工智能领域的发展。这个当然是成为过去了,问题是,现在还是美国和加拿大等北美的国家在引领这个领域的发展,他们在不断的创新,如果我们不重视(基础/算法理论研究),不在这些领域赶上他们,会非常制约中国的创新能力,特别是原始创新的能力。如果这点不重视,不抓紧,要赶上或超过世界的先进水平是有困难的。


深度学习拓展了AI的技术边界

我的报告题目是《基于大数据的人工智能》,主要是谈人工智能和大数据,我用它作为例子分析一下,中国在人工智能领域如何赶上和超过世界的先进水平。


首先认识一下基于大数据的深度学习。深度学习的提出,在人工智能领域中是一个重大突破。以往,人工智能只能用来解决人们对它非常了解,而且能够清楚的将它表达出来的问题,例如医疗诊断,人们大体上能够说清楚一个症状是由什么疾病引起的;例如下象棋,每下一步都能够说明它的理由,等等。但这些(问题领域)非常有限,深度学习拓展了人工智能所能解决问题的边界。


其次,深度学习具有一定的通用性。比如,人们(用深度学习)做图像识别,不一定要具备非常丰富、专业的图像知识,外行也能做。即使你不是这个领域的专家,也能把深度学习应用到这个领域。所以,深度学习是一种大众化的工具,它把解决问题的领域大大延展了。而且,这个领域即便没有很深度的了解,但是只要拥有充分的数据就能够做(研究)。


正因为如此,对大众而言,这些奇迹引发人们认识到了深度学习的威力。第一,就是在图像识别领域,在某一个图像库里,机器识别准确度略微超过人类,或者机器的误识率低于人类,(展示)这是微软做的工作;百度做的工作是在语音识别(展示),识别错误率略低于人类,在两个领域的识别上机器都超过了人类。


其中,震动最大的还是AlphaGo,为什么会引发大家的震动。机器超过人,在数字计算方面早就已经实现,人们一点不感觉惊讶,因为计算机的本行就是计算,所以在数字计算上超过人类,大家并不觉得奇怪。


现在,在语音、图像识别、下围棋方面,以往都被认为是人类最擅长的,居然也被机器超越了,所以人们觉得惊讶、震动。


深度学习成功的三大法宝

现在要分析两个问题:一个问题是这些奇迹会不会在今后不断的发生,大家都希望把深度学习的方法用到其他领域可能会产生新的奇迹,这些奇迹会不会发生,在什么样的情况下会发生;第二,如何推动深度学习继续向前发展。


首先,要分析一下,这些奇迹来自何处?为什么机器下围棋能超过人类,为什么在图像识别的某些方面会超过人类,成功的因素是什么?我认为有三大法宝:头一个是数据,第二个是计算资源,第三个是算法。这就是深度学习成功的三大法宝。大家对于前面两个方面比较注意、有体会,很多人还没有体会到算法的重要性。我这里继续用AlphaGo作为例子,具体谈谈它怎么来使用这三个法宝。


AlphaGo战胜人类棋手,跟象棋(人机大战)完全不一样。象棋程序是怎么做的呢,就是把象棋大师的下棋经验编成程序放在机器里,所以做象棋程序的人相当一部分是象棋大师,而且请了好多的象棋大师帮忙,深蓝打败了卡斯帕罗夫,其实不是机器打败的卡斯帕罗夫,而是大师的群体打败了他,也就是说人们利用机器把一群大师群体的智慧和经验总结起来,才打败了个别的大师。但是围棋不同,围棋(程序)里,懂围棋的很少,最高的是围棋业余五段,做出来的东西居然能打败世界冠军,靠的是什么?靠的就是刚才说的三大法宝。


机器用了两个多星期的时间,学了7千万局棋局,这7千万局棋局就是历史以来大师们下过的所有棋局。(机器)自己又跟自己下,跟李世石下之前也下了千万局的棋局。也就是说比所有的棋手多下了几千万局的棋,最后的结果是4比1战胜(李世石)。最好的棋手一生中所下的棋局是百万级,而AlphaGo下过的棋局是几十亿级的,这两项数据非常不对称,(人类)绝对是输的。这里可以看到,一个是数据的力量,第二个是计算资源的力量,大家没有看到背后算法的力量。但AlphaGo能够在两三周里学到几千万个棋局,靠的是什么,其实是靠学习算法,它自己能自己下棋,靠的是什么,靠的是强化学习算法,没有这些,它是做不到的。



满足四个条件机器才能超过人类

是不是所有问题,只要有数据,就能够做到这么好呢?不是!这要受四个条件限制:头一个条件当然是需要有大量的数据,第二个是完全信息,第三个是确定性,第四个是单领域和单任务。只有这四个限定条件达成后才有可能做到刚才说的,达到或者超过人类的水平。有很多问题(同时)符合这些条件,比如说医疗数据,可以做大数据处理,像某些疾病的医疗诊断,医疗图像的识别,医学图像识别等等,只要(问题领域)符合这四个条件,都可以做,而且经过努力,依靠那三大法宝是可以达到或者超过人类的水平。但是,大量的工作并不符合以上四个条件,不符合中间一条两条或者四条都不符合,如果一旦不符合这四个条件中的任何一个,现在的人工智能技术就有困难。


所以,现在的问题是下一步怎么办。单业务的问题,单领域的问题,下围棋的程序只能下围棋,不能下象棋。但是人类很多棋手象棋和围棋都下的很好,语音识别系统只能识别语音,不能识别文字,这些多任务问题怎么解决?不久前,Google发表了一篇文章,文章的题目也很震动人,一个模型可以学所有的任务,当然这里面有夸大说法(的成分)。


但是,这也就意味着在一个网络里,一个模型里可以学多项任务,它一共学了八项,这八项任务中有五项是属于机器翻译的,有英文翻译成法文,英文翻译成德文,法文翻译成德文等等,有图像识别,图像解释等等,一共八项任务在一个网络下学习。如果这个问题解决了,就能让计算机解决更复杂的问题,因为这不仅涉及到一个领域,还涉及到另外的领域。当然这是个初步工作,但是它有个非常好的苗头


对此,以往大家是困惑的,语音也在里面学,文字也在里面学,图像也在里面学,会不会互相干扰呢,过去我们怕装不同东西的时候它会乱了,会互相干扰,但Google得出来的结论,不仅不会互相干扰,在一定程度上还略微有帮助。这个帮助领域可能很广,语音的东西帮助机器翻译,机器翻译会帮助图像,这是个非常重大的成果。这就说明人大脑里可以做很多事情,它们互不干扰而且能够互补。(北美)还在引领这些发展,如果中国只低头用深度学习去解决(应用)问题,这个确实需要,但是如果不去研究一个目的背后需要解决的问题,中国要达到引领是不可能的。


目前看,相当一部分问题不符合刚才讲的四个条件。简单举一个例子就是无人驾驶车。无人驾驶车到现在为止,在特定的条件下可以用它,如果在交通非常繁忙的地方,美国、德国都规定这个时候司机不能下车,无人车上都必须得有司机。为什么会有这个规定呢?这不是坐无人车的人的责任,这是人工智能的问题。


因为这是在一个开放的环境下,大数据解决不了它,大家不要认为大数据可以解决一切。同样,自然语言理解,大数据也不能解决,它是一个开放的领域,因为人类说话的时候各个领域的话都可以说。简单解释下,为什么在复杂的交通环境里司机不能下车,原因很简单,大家看一下这个路况(展示复杂路况图),计算机能搞明白吗,中国式的过马路计算机能搞明白吗,美国式的过马路计算机就能用吗?也不能用,因为突发的事件,新的场景,新的路况是层出不穷的,你不可能把它所有情况都算到。


但是人为什么可以呢,机器为什么不可以呢?理由非常简单,就是人工智能现在做不到举一反三,人工智能现在学习的是举一百反一。它要训练几千万上亿的样本,你的测试新的样本只有几万,现在多的有几十万,它是学过才能够识别,没学过的识别不了,也就是所谓的举一反三能力,用专业话讲就是推广能力,这是怪人工智能,不怪坐车的人。


所以,这里面有大量的研究工作要做,美国人也在引领这些研究,我们如果不去关心,那么问题就会很大。我们要解决小样本甚至零样本学习的问题,小样本学习就是用很少的样本学习和训练,然后就可以推广到应用。比如小孩学习一个马或者牛的概念,只要看一下马或牛,甚至看一下马的图片就能认识真正的马,计算机不行,得把所有情况所有背景下的马都得让它看,要看成千上万个它才能识别。


第二,样本少了怎么办?现在有自动产生样本,这点也是美国人提出的方案。两个对抗的深度网络就可以产生各种各样的样本。包括,现在可以逐步地(自动)产生非常复杂的环境和路况,这就可以解决样本不足的问题。因为有大量的问题根本没法取样本。


深度学习并非万能

回头看,深度学习也不是非常完美的。很多人以为用深度学习去做产业或者应用是不会有问题的,但是这里要强调,深度学习有大量的隐患,这些隐患在很多应用场合下是绝对不允许的。首先,它需要大量的样本,有些问题很难获取很多样本,比如特殊疾病,罕见疾病,根本没有那么多样本。当然推广能力差已经说过了。给它什么(数据训练),它就只能学到这个,最重要的是,不可理解性,现在看到深度学习建立的系统,实际上跟人的思路很不一样。


因此,这句话说它(机器)的识别能力超过了人,这只是在非常特定的环境下这么说,其实很多方面它不如人。比如它识别率比人高,只是说它区别马和牛能力比人高,就是在一定的数据库下它识别能力比人高,但是它根本上不认识马和牛,所以这个不理解性问题很大。将来如果做一个人机系统,决策系统的话,机器做出来的决策人都不知道它怎么做出来的,那怎么用呢?


我们看一下为什么机器学习的效率这么低,还要使用那么多样本,比如用这张图告诉(机器)说这里有一只猫,这个猫在这里面信息流占了多少比重呢?我们有计算过是1.1%,也就是说提供的这个样本只有1%左右有用,99%没有用,因为提供这个照片告诉它这里是一只猫,计算机根本不知道猫在哪儿,所以这就迫使人们必须用大量的样本,告诉它这是猫,在草地的猫,在另外的背景里猫会变成这样,要用各式各样的样本在不同背景下的猫去训练它,它才能认识,只有跟它相近的背景、相近的角度拍下的猫它才认识,如果背景变了,猫拍摄的角度变了它也不认识了,所以这是它的一个根本性的问题,它不理解,但人是看了这个猫就理解这个猫。


第二,鲁棒性差,左边这个图这个猫是熊猫,中间这个图我们加了一点线可它还是熊猫啊,可是计算机把它判断成长臂猿了,这就叫鲁棒性,很容易错,因为它本质上不认识猫。虽然做出来的表面上看起来性能跟人一样,实质上跟人是非常不一样的,所以我们说的能超过人都是在特定意义上说的。


机器把这个环境的猫都学了,我们来了一个新样本也是猫,环境跟它完全不一样,它不认识了,这就叫推广能力,它无法举一反三,至于刚开始说的无人车问题,训练的时候可以这样过马路,换成另外一种形式过马路,你没教它它就不知道怎么弄了。比如说,对人来讲马上能区分出来,一个男的一个女的肯定不是一个人,但是机器里绝对把他看成一个人,因为从各种特征来看很多是一样的,因为它不认识什么是男什么是女,所以,机器做的事和人是不一样的。


所以,现在实际要解决的问题就是人和机器能够合作的问题。大家都在强调,今后的方向肯定是人和机器合作,要各发挥所长,这里面有一个问题就是机器如何理解人,人如何理解机器。过去的重点是放在机器如何理解人上面,比如说人类的语音命令,用自然语言发的命令它能够听懂,这是所谓自然语言对话。


其实忽视了一个非常重要的另外一个点就是人如何理解机器,这是由深度学习引起的,因为深度学习出来以后,它做出来的事情人非常不理解,这就给人机共同合作带来了巨大的困难,所以现在很多的重点除了做自然语言理解,理解用户的意图等等这些工作外,还要集中在人如何理解机器的方面。


为什么会发生这种情况,为什么机器的思路跟人不一样,因为机器处理的方式要用专业的语言。机器怎么识别猫呢?它只是从一些局部的特征,局部的纹理来识别它,它根本不是从猫的整体,因为机器要取得整体的特性是非常困难的,它只取得局部的特性,所以它都是在利用局部特性,在一个特征空间里去认识猫,跟人认识猫的角度完全不一样,人认识猫是从所谓语意空间里,是通过它的各种各样的属性来识别它,比如猫有四条腿,猫有尾巴,猫有长胡子等等,机器不是这么认识它的。


总结一下,人工智能做了两件事,一件是属于文本处理。早期的,以知识为基础,在一个称为语意的符号空间。也就是说文本在机器里用符号来表示,而且这个文本就是用原来自然语言表示。但是做起来有两个难点,一个难点就是要从文本符号、符号序列中挖掘出它的知识很困难,而且符号的处理非常低效能。所以早期的人工智能没有得到很大的发展。


往后进入深度学习时代,深度学习时代依靠的是数据,它是在向量空间里来处理的,因为向量对计算机来讲非常好处理。深度学习为什么那么有效,重要的原因是用想象来处理的。缺点是做出来的东西是不可理解的,跟人的做法完全不同。将来怎么利用它呢,所以无法利用。现在大量的研究工作是集中在寻找中间量,称之为语意的想象空间,右边取一个词“语意”,左边取一个词“向量”,所以任务就变成了两个,如何把文本符号的东西变成向量。至于如何将数据空间把它提升到语意中来,也是不久前Google发表的文章提出了一个方向。另外,如何从数据中间提取知识,人们常说的数据挖掘。这些领域进展都非常快,一旦这些问题突破了,人工智能不论是技术,还是产业都会得到进一步的飞速发展。


目前,这些研究不仅只是大学或者科研机构的事情了,企业也都在纷纷参与。我有个团队也是围绕上面的问题,重点是如何突破将来人工智能要解决的基础和关键问题,而不仅只是低头跟随性的应用深度学习,只有从这点上着手,我们才有可能实现(在人工智能领域)追赶、超过或引领的目标。



来源:钱塘大数据


工业互联网操作系统




产业智能官  AI-CPS


用“人工智能赛博物理操作系统新一代技术+商业工业互联网操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链


长按上方二维码关注微信公众号: AI-CPS



本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com




登录查看更多
0

相关内容

张钹,1935年3月26日出生于福建福州福清县,计算机科学与技术专家,俄罗斯自然科学院外籍院士、模式识别和人工智能专家,中国科学院院士,现为清华大学计算机科学与技术系教授,清华大学人工智能研究院院长。历任清华大学校学位委员会副主任,智能技术与系统国家重点实验室主任,中国自动化学会智能控制专业委员会主任。主要从事人工智能、人工神经网络、机器学习、知识工程与机器人等领域的研究。个人主页:https://baike.baidu.com/item/%E5%BC%A0%E9%92%B9/4140426?fr=aladdin
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
97+阅读 · 2019年12月29日
电力人工智能发展报告,33页ppt
专知会员服务
120+阅读 · 2019年12月25日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
295+阅读 · 2019年12月23日
人工智能学习笔记,247页pdf
专知会员服务
174+阅读 · 2019年12月14日
2019中国硬科技发展白皮书 193页
专知会员服务
78+阅读 · 2019年12月13日
龚健雅院士:人工智能时代测绘遥感技术的发展机遇与挑战
未来产业促进会
6+阅读 · 2018年12月25日
张钹院士:我们正在通往真正AI的路上
德先生
3+阅读 · 2018年7月1日
张钹院士:走向真正的人工智能(附报告全文)
走向智能论坛
12+阅读 · 2018年7月1日
【深度】谭铁牛院士谈人工智能发展新动态
中国科学院自动化研究所
4+阅读 · 2017年12月28日
The Measure of Intelligence
Arxiv
6+阅读 · 2019年11月5日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员