人工智能已到瓶颈!院士“联名”反深度学习,并指出AI未来发展方向

2018 年 12 月 2 日 算法与数学之美

针对当下深度学习的技术瓶颈,包括清华大学张钹在内的多位院士、教授给出了自己的研究思路。


前言

在刚刚结束的CCF-GAIR大会上,来自清华、加州大学伯克利、斯坦福、哈工大等多所国内外顶级理工科院校的院士齐聚深圳,分享了自己最新的研究。虽然各自研究的细分领域有所不同,但是透过贯穿始终的技术讲演,避不开的事实是,多位院士都在或直接或间接的去“批判”深度学习算法。


演讲中,他们再次明确指出深度学习的缺陷,进而点出,在可以预见的未来里,随着研究的推进,当下的深度学习算法将会逐步被拉下神坛。


不过,顺着学术界走入产业应用,会发现产业界的关注重点是在技术的落地。所谓落地,本质上就是无数应用场景的聚合。所以对于AI企业而言,对业务的探索和用恰当的技术去解决实际问题才是首当其冲的。


因此,深度学习存在缺陷,这一问题短期内并不会妨碍AI当下不可阻挡的发展之势,技术的局限也不意味着AI公司们将会无事可做。


但阳春白雪的研究始终引领着AI产业的技术走向,也是企业盈利和产业变革的关键驱动力。


所以,在深度学习被过度炒热的当下,我们理应试着站在院士们的“肩膀”上,看的更远。而企业家们在脚踏实地的同时,也应当不忘仰望星空。


尽管这已不是什么新鲜的话题,但是行业内一直没有可以解决问题的办法。本文旨在传达学术界研究者们提供的一些新思路。


机器学习的弊病

源于对“大”的误解

当下,最常被提起的名词就是机器学习、深度学习和神经网络,用数学上集合里的概念去理解这三者之间的联系,他们之间依次是包含的关系,即机器学习包含深度学习,深度学习包含神经网络。其中,四层以上的神经网络就可以称之为深度学习,而深度学习是一种典型的机器学习。


上世纪五十年代,神经网络这一算法结构出现,当时,它的正式名称应叫做感知机,但已经包含了输入层、隐含层和输出层这一经典的通用结构,并且随着隐含层层数的加深,对事情的描述就愈加精准。


但是,神经网络是一种以输入为导向的算法,所以优质的结果一定取决于接近“无穷”量级的数据。因而,在2000年互联网革命没有爆发之前,它一直都处在无人问津的阶段。


正如大家所知道的,互联网时代积累的大量数据和云计算带来的算力的大幅提升,极大地释放了深度学习算法(深层的神经网络)的潜力,因而也让人工智能时代全面爆发,产业应用得以蓬勃发展。数据显示,2017年我国人工智能市场规模达到216.9亿元,同比增长52.8%,预计2018年市场规模将达到339亿元。


然而,随着产业应用的成熟,以及大家对真正“智能”的渴求,让算力和深度学习算法本身的局限性,显露无疑。


图 | 加州大学伯克利分校电子工程与计算机系教授 马毅


“老百姓概念里的‘大数据’和我们所认为的大数据是完全不一样的,就拿图像处理来说,数十亿的数据量看似量级很高,但对我们来说,它其实是‘小样本’。因为真正能够训练出好的模型的数据量,应当是趋于无穷的,所以即便是拥有了大量数据去训练模型,和理想的智能模型之间,也有着本质的差别。”从算法性质出发,加州大学伯克利分校电子工程与计算机系教授马毅也点出了当下这项火热技术的局限性。


因而从学者、投资人到AI头部企业,寻找新的技术和方向成为了现在的重点。


在会议的开场报告中,清华大学张钹院士呼吁大家思考的“如何走向真正的人工智能”成为了为期三天会议的基调,同时也反映了行业发展至当下阶段,众人的诉求。


新方向探索

数据处理方法、基本思想和技术思路

  • 数据处理层面,语义向量空间或进一步拓宽入口

看见了技术的“天花板”,很多专家学者开始提出“小数据”的概念,然而清华大学人工智能学院院长张钹院士却不认为数据量的大小是当下的根本问题所在,他指出,传统的人工智能三要素将不能带来真正的智能。


图 | 清华大学人工智能学院院长、中国科学院院士 张钹


“评价人工智能获得的成果,我们可以从这五件事来看:深蓝打败人类国际象棋冠军;IBM 在电视知识竞赛中打败了美国的前两个冠军;2015 年微软在ImageNet 上做图象识别,误识率略低于人类;百度、讯飞也都宣布在单句的中文语音识别上识别准确度略低于人类和AlphaGo 打败了李世石。前两件事归为一类,后三件事可归为另一类。


大家一致认为,这五件事得以发生的三要素是:大数据、算力的提升和非常好的人工智能算法。但我认为大家忽略了一项因素,就是这所有的成果必须建立在一个合适的场景下。


换言之,当下人工智能的发展避不开种种限制条件,因而智能的机器也只能够照章办事,没有任何灵活性,也达不到人们想要的智能,而这也就是当下AI的发展状态。


“我们现在的人工智能基本方法有缺陷,而我们必须走向具有理解能力的AI,这才是真正的人工智能。”张钹院士在演讲中指出。


那解决办法是什么呢?通过循序渐进,张院士在演讲中给出了思路,并指明语义向量空间这一技术方向。


“首先,需要明确的是,现有的机器缺乏推理能力的原因在于它没有常识。”


张钹院士通过实验验证,常识的建立确实会极大程度的提升机器的性能。而为机器建立常识库也成为人工智能企业进一步提升系统性能的第一步。“美国在1984 年就搞了这样一个常识库的工程,做到现在还没完全做出来。可见,要走向真正的人工智能,有理解的人工智能,是一条很漫长的路。”


但即使在建立常识库的基础上,做到有理解能力的人工智能依然不容易。想要提升智能的第二步,在张院士看来,就是将感性和知识的世界统一起来,而这将为人工智能的发展带来一次质的飞跃。


“深度学习之所以能够极大的促进人工智能的发展,技术上的关键在于人们能够将获取的标量数据转变为向量,从而用到机器上。但至今为止,将行为(特征向量)和数据(符号向量)结合起来使用始终是科研的难点,而这就限制了机器变得更‘智能’。”


不仅如此,从安全层面来看,纯数据驱动的系统也存在很大问题——鲁棒性很差,易受到很大的干扰。因而,在大量样本的训练下,系统仍会犯重大的错误。如商汤、旷视等头部企业也表示,即便训练出的系统模型准确率高达99%,但在实际应用中,系统仍然会犯很多“弱智”的错误。


“我们现在想出的解决办法是这样的,就是把这特征向量空间和符号向量投射到一个空间去,这个空间我们把它叫做语义向量空间。”


怎么做?


张院士指出,第一,要通过Embedding(嵌入)把符号变成向量,尽量保持语义不丢失;第二就是Raising(提升),结合神经学科,把特征空间提升到语义空间。


“只有解决这些问题,我们才能够建立一个统一的理论。因为在过去,对感知和认知的处理方法是不同的,因而两者不在同一维度,无法统一处理。但如果我们能够将感知和认知投射到同一空间,我们就可以建立一个统一的理论框架,并在语义向量空间里解决理解问题。这是我们的目标,但是这项工作是非常艰巨。”

  • 基本思想的颠覆,模糊计算或是未来


“无论是知识图谱,语义向量空间还是当下的其他深度学习训练,它们都是基于概率统计理论,而模糊逻辑不是,它是以模糊集理论为基础的。”非常大胆的,从思想层面,美国犹他州立大学计算机系终身教授承恒达给出了颠覆性的想法。


图 | 美国犹他州立大学计算机系终身教授 承恒达


其实模糊逻辑并非全新的概念。1931年,Kurt Gödel发表论文证明了形式数论(即算术逻辑)系统的“不完全性定理”,模糊逻辑诞生。而在1965年,美国加州大学的L.A.Zadeh博士发表的关于模糊集的论文,标志着人类首次用数学理论成功描述了不确定性。


“现在的计算机领域,不是0就是1,而我们描述的是0到1之间的很多不确定性成分,其实,这一过程描述的是导致结果的原因。以两瓶水为例,一瓶水上标记‘是纯净水的概率是0.91’,而另一瓶水上标记的是‘水的纯净程度是0.91’,你会选择哪一瓶呢?显然,你会选择后者。这里的思考判断过程就是模糊逻辑,因为后者对于程度的描述本质上就是模糊的。”


目前,类似于经典逻辑体系(微积分、线性代数、生物学等衍生学科),模糊逻辑也逐步形成了自己的逻辑体系。


然而再好的技术,都需要结合应用去展现它的优势。在这一方面,承教授也是格外重视,于是他选择了乳腺癌的早期诊断研究领域。“到目前为止,我们的设计样本已经被全世界二十多个国家,五十多个团队用来使用。”


在承教授看来,现有的技术存在着非常明显的不足,需要大家沉下心来去分析问题,从而探索到改进的方法。“现在大家都在模拟脑波中的电信号,但其实大脑里存在的不仅仅是电信号,还有化学反应。而很多人在做的医学图像处理,实际上只是做图像处理,却不是医学图像处理,它们之间是有着非常大的不同。”

  • 技术思路:大繁至简


当下,面对技术的毫无进展,AI公司的焦虑显而易见。不同于上面院士教授们给出的具体技术思路,马毅教授更像是科技界的“鲁迅”,他用PPT中一张张演讲稿中的优质论文做例,只为重新唤醒大家对于AI的思考。


图 | 马毅教授现场PPT选


“神经网络,导入的数据有一个很小的改动,分类就会有很大的变化,这不是什么新发现,2010年,大家就遇到这样的问题,但至今没有解决。”演讲一开始,马毅就拎出了“老生常谈”,毫不留情的将一盆冷水浇到了众多对AI盲目乐观的人身上。


对技术的不正确认知,马毅也在极力得纠正。


“在人脸识别领域,要让算法具有鲁棒性,比写个AlphaGo要困难千倍。”

“都说神经网络越大越好,这简直是胡说八道。”


嬉笑怒骂间,从事研究数年,马毅给出了自己的思考方向:“真正的优质算法一定是最简单的,比如迭代、递归,还有经典的ADMM,这些简单的算法就很好,也很有用。”


结语

接下来,人工智能技术的发展并不会乐观,尤其是产业发展将进入一个平缓期,但是这并不意味着学术界和产业界将无事可做。


图 | 张钹院士现场PPT选


正如张钹院士指出的,“我们正在通往真正AI 的路上,现在走得并不远,在出发点附近。但人工智能永远在路上,大家要有思想准备,而这也就是人工智能的魅力。”

∑编辑 | Gemini

来源 | 中国指挥与控制学会

更多精彩:

☞  哈尔莫斯:怎样做数学研究

☞  扎克伯格2017年哈佛大学毕业演讲

☞  线性代数在组合数学中的应用

☞  你见过真的菲利普曲线吗?

☞  支持向量机(SVM)的故事是这样子的

☞  深度神经网络中的数学,对你来说会不会太难?

☞  编程需要知道多少数学知识?

☞  陈省身——什么是几何学

☞  模式识别研究的回顾与展望

☞  曲面论

☞  自然底数e的意义是什么?

☞  如何向5岁小孩解释什么是支持向量机(SVM)?

☞  华裔天才数学家陶哲轩自述

☞  代数,分析,几何与拓扑,现代数学的三大方法论

算法数学之美微信公众号欢迎赐稿

稿件涉及数学、物理、算法、计算机、编程等相关领域,经采用我们将奉上稿酬。

投稿邮箱:[email protected]

点赞 0

Wearable devices including accelerometers are increasingly being used to collect high-frequency human activity data in situ. There is tremendous potential to use such data to inform medical decision making and public health policies. However, modeling such data is challenging as they are high-dimensional, heterogeneous, and subject to informative missingness, e.g., zero readings when the device is removed by the participant. We propose a flexible and extensible continuous-time hidden Markov model to extract meaningful activity patterns from human accelerometer data. To facilitate estimation with massive data we derive an efficient learning algorithm that exploits the hierarchical structure of the parameters indexing the proposed model. We also propose a bootstrap procedure for interval estimation. The proposed methods are illustrated using data from the 2003 - 2004 and 2005 - 2006 National Health and Nutrition Examination Survey.

点赞 0
阅读1+

Quantum many-body systems exhibit a rich and diverse range of exotic behaviours, owing to their underlying non-classical structure. These systems present a deep structure beyond those that can be captured by measures of correlation and entanglement alone. Using tools from complexity science, we characterise such structure. We investigate the structural complexities that can be found within the patterns that manifest from the observational data of these systems. In particular, using two prototypical quantum many-body systems as test cases - the one-dimensional quantum Ising and Bose-Hubbard models - we explore how different information-theoretic measures of complexity are able to identify different features of such patterns. This work furthers the understanding of fully-quantum notions of structure and complexity in quantum systems and dynamics.

点赞 0
阅读1+

We perform a systematic analysis on the large-scale taxi trip data to uncover urban mobility and city dynamics in multimodal urban transportation environments. As a case study, we use the taxi origin-destination trip data and some additional data sources in Washington DC area. We first study basic characteristics of taxi trips, then focus on five important aspects. Three of them concern urban mobility, which are respectively mobility and cost including effect of traffic congestion, trip safety, and multimodal connectivity; the other two pertain to city dynamics, which are respectively transportation resilience and the relation between trip patterns and land use. For these aspects, we use appropriate statistical methods and geographic techniques to mine patterns and characteristics from taxi trip data for better understanding qualitative and quantitative impacts of the inputs from key stakeholders on available measures of effectiveness on urban mobility and city dynamics, where key stakeholders include road users, system operators, and city. Finally, we briefly summarize our findings and discuss some critical roles and implications of the uncovered patterns and characteristics from the relation between taxi system and key stakeholders. The results can support road users by providing evidence-based information of trip cost, mobility, safety, multimodal connectivity and transportation resilience, can assist taxi drivers and operators to deliver transportation services in a higher quality of mobility, safety and operational efficiency, and can also help city planners and policy makers to transform multimodal transportation and to manage urban resources in a more effective and better way.

点赞 0
阅读1+

The state-of-the-art performance of deep learning algorithms has led to a considerable increase in the utilization of machine learning in security-sensitive and critical applications. However, it has recently been shown that a small and carefully crafted perturbation in the input space can completely fool a deep model. In this study, we explore the extent to which face recognition systems are vulnerable to geometrically-perturbed adversarial faces. We propose a fast landmark manipulation method for generating adversarial faces, which is approximately 200 times faster than the previous geometric attacks and obtains 99.86% success rate on the state-of-the-art face recognition models. To further force the generated samples to be natural, we introduce a second attack constrained on the semantic structure of the face which has the half speed of the first attack with the success rate of 99.96%. Both attacks are extremely robust against the state-of-the-art defense methods with the success rate of equal or greater than 53.59%.

点赞 0
阅读1+

We propose a new method for event extraction (EE) task based on an imitation learning framework, specifically, inverse reinforcement learning (IRL) via generative adversarial network (GAN). The GAN estimates proper rewards according to the difference between the actions committed by the expert (or ground truth) and the agent among complicated states in the environment. EE task benefits from these dynamic rewards because instances and labels yield to various extents of difficulty and the gains are expected to be diverse -- e.g., an ambiguous but correctly detected trigger or argument should receive high gains -- while the traditional RL models usually neglect such differences and pay equal attention on all instances. Moreover, our experiments also demonstrate that the proposed framework outperforms state-of-the-art methods, without explicit feature engineering.

点赞 0
阅读12+
Top