【深度学习】一文看尽深度学习各领域最新突破

会员服务 ·

【深度学习】一文看尽深度学习各领域最新突破

2019 年 4 月 24 日 人工智能学家

来源：《产业智能官》

想要了解深度学习各领域的最新进展？

看个视频就足矣。

该课程的PPT资料，下载地址如下：

https://www.dropbox.com/s/v3rq3895r05xick/deep_learning_state_of_the_art.pdf?dl=0

本文所介绍的内容是MIT系列课程之一，是有关深度学习最新进展的讲座。可以说，该课程的内容定义了这个领域的最前沿的技术。

课程提纲：

BERT和自然语言处理
特斯拉自动驾驶仪硬件v2+：大规模神经网络
AdaNet：集成的AutoML
AutoAugment：深度强化学习数据增强
用合成数据训练深度网络
使用Polygon-RNN ++进行分割注释(Segmentation Annotation)
DAWNBench：高速、低代价训练
BigGAN: 图像合成中的最先进技术
Video-to-Video合成
语义分割
Alpha Zero和Open AI Five
深度学习框架

BERT和自然语言处理

编码器-解码器架构

注意力机制

Transformer

词嵌入向量

上下文感知嵌入

OpenAI Transformer

BERT

特斯拉自动驾驶仪硬件v2+：大规模神经网络

AdaNet：集成的AutoML

AutoAugment：深度强化学习数据增强

用合成数据训练深度网络

使用Polygon-RNN ++进行分割注释(Segmentation Annotation)

DAWNBench：高速、低代价训练

BigGAN: 图像合成中的最先进技术

Video-to-Video合成

语义分割

Alpha Zero和Open AI Five

深度学习框架

深度学习不仅是知识，而是思维范式的转变

1956年，达特茅斯人工智能夏季研究计划首次提出“人工智能”一词，标志着这一学科的正式诞生，并鼓舞了一代又一代的科学家不断探寻可以媲美人类智慧的信息技术的潜力。

作为人工智能从概念到繁荣得以实现的主流技术，“深度学习”也被全球各大科技巨头纷纷拥抱。

自动驾驶、AI医疗、语音识别、图像识别、智能翻译以及震惊世界的AlphaGo……

我们今天所看到的各种形式的人工智能，背后都是“深度学习”在发挥神奇的作用。

深度学习究竟是什么？它是如何一步步影响科技、商业和社会生活的？未来若干年，它又将如何影响我们所处的世界？

全球十大AI科学家、美国四院院士之一的特伦斯·谢诺夫斯基的新书《深度学习：智能时代的核心驱动力量》，从深度学习60年间的发展浪潮中前瞻性地预测了智能时代的商业图景。

关于本书微软（中国）CTO韦青老师做了分享与领读。大家请欣赏。

深度学习不仅是知识，而是思维范式的转变

首先我们怎么看深度学习，它到底是新的知识，还是一种范式的转变？深度学习是人工智能的一种方式。人工智能非常广泛，其中机器学习是一方面，深度学习又是机器学习的一个子域。我认为深度学习不仅仅是知识，更是一种思维范式的转变。

爱因斯坦说过：“我们不能用制造问题时的同一思维水平来解决问题”。我们现在处在一个智能的时代，机器开始解决很多人类原来以为自己擅长的，结果是机器更擅长解决问题。所以我们需要努力学习新的知识。新的知识要求我们对人类的思维方式和通过数学算法对世界描述转变，让我们理解这个世界是由很多模型构成的。人类思维方式和思考能力也是一种模式的识别，这种模式的识别发现和数学算法有一种天生的关系。

如果我们还带着过去的思维方式，无论是电气化时代的思维方式，甚至是信息化时代的思维方式，都无法理解智能时代人脑的思维方式和计算机的计算方式有什么异同点。

这会产生两种结果：一方面容易把人工智能所带来的成就神话和夸大，另一方面对数学的进步和算法的进步带来的人工智能发展成果产生误解。现在出现很多“机器是否会代替人，机器人是否让人类灭亡”的担忧。这就是因为没有充分了解人工智能的本质。

人的视觉是如何形成的？从科学角度来讲，你并不是真正的看到我，或者看到其他人。视网膜上的视锥细胞和视杆细胞把光子转化成电子，电子通过视神经到大脑皮层，通过一层一层分析，大脑通过对电信号的计算看到了我。如果理解了人的视觉行为，我们就能更深入的理解现在流行利用人工智能算法的方式去解读视觉信号、视频信号，也更容易理解为什么现在的人工智能可以做图形分析、图像分析、视频分析。

史为鉴，重新认识科技进步

在全球范围内由于技术的进步引发的新话题层出不穷，我们不断接收到新的理念。越来越多的公司和人发现，人类开始进入“无人区”，没有一个大思想家或者大哲学家能够告诉我们未来会怎么样。所以人们产生了很多争论，关于人工智能的争论，关于机器智能的争论，关于机器人的争论，关于技术和人类关系的争论等等。

去年10月份微软公司CEO萨提亚的一场非常有名的演讲上说，未来没有人引导我们，那么我们可以以史为鉴，看看历史上发生过什么。最有代表性的就是第一次工业革命到第二次工业革命之间，由蒸汽时代进入电气化时代。我把这个阶段总结为四种态度和四种结局。当时有很多有影响力的全球性的公司，他们用蒸汽力量代替人的四肢。但当电气出现的时候，绝大多数公司态度是看不起电，因为开始的阶段电的效率并不够高。第一类公司的想法是电力不行，效率低，没有未来，蒸汽力量足够了，一百年之后他们被淘汰了。

第二类公司放下一些包袱，认为电是新生生物，也有潜在发展的可能性，但是仍然坚信蒸汽机的力量，坚信只要对蒸汽机进行改良一样可以保持竞争力，这些公司也被淘汰掉了。

最可惜是第三类公司，他们已经放下旧的生产力，开始拥抱新的生产力和形成新的生产关系，但是思维方式没有改变。他们认为自己全面拥抱电气化时代，已经产生比蒸汽机时代超高的效率，更低的成本，但是他们还在跟蒸汽机相比，这些公司最终也被淘汰掉了。

当时大部分企业对于电气化的观念只是能点多少盏灯，或者生产线能够提高多少效率。只有5%的公司选择彻底放下包袱，忘记什么是电气，什么是蒸汽，而是把它们都当成是工具。这些公司要的就是进入新的时代。这代表更高的效率，更低的成本和更优秀的用户体验和产品品质。

通过历史上的事件可以发现，我们现在对未来的任何预估都是不足够的，都可能没有完全估计到未来的冲击力。

在五六十年前，全中国人民都有一种对未来社会的憧憬——楼上楼下电灯电话，这在当时来说是非常具有前瞻性了。当时的人们认为已经看到了最终最理想的社会，但是几十年之后再看，当时的憧憬并没有那么远大。从人类从开始考虑到用电到电的普及，已经有一百多年的历史。

我们发现电不仅仅可以点灯，不仅仅可以驱动电器，不仅仅可以驱动电机，甚至还可以有计算机，还可以驱动一辆汽车，电力比原来的内燃机要更加高效、更加可靠和更加优秀。

我们跟客户的交流中也有思考，是否需要做思维的转变，才有可能真正理解这一轮技术变革是怎么回事。如果我们还抱着老的观念，抱着产生问题时候的观念，我们真能够理解这个伟大的时代将带给我们的辉煌未来吗？我们是否需要先把我们认为的所有成见都放掉，然后再来看现在的技术到底怎么回事？我们也知道深度学习只是机器学习、人工智能的一部分，我们要把深度学习的包袱也放下，扩展到我们进入的这个时代来思考。

不管从1956年的达特茅斯会议，还是更早的图灵时代、冯·诺依曼时代、香农时代，他们都有对于人工智能的理解，都有对于计算机到底能做什么事情的理解。我们并不是直接进入了机器学习的时代，中间还有一个阶段是希望通过逻辑的关系。

我们知道都有一种服务If This Then That，也就是IFTTT。这种服务充能够理解人的逻辑思维。比如说If我饿了，Then我要去吃饭。If我是北方人，我饿了，Then我愿意吃的是面而不是米饭，用这种方式试图解读人类决策机制。后来发现比较困难，一些专家认为这条路走不通，所以选择用模仿脑神经的机制来做决策。

现在很流行的说法是云时代要结束了，未来几年都是边缘智能时代，为什么？其实这和学习能力也是相关的。在某种意义上可以把人类看做是一个发电机，我们之所以要吃碳水化合物，还要呼吸氧气，是因为我们在以氧化的形式进行燃烧，产生能量、产生电力。我们之所以看到东西其实不是真的看到，而是把光子变成电子，大脑去分析电子产生视觉，听觉也是一样。

在历史上的某个阶段，古人类开始发现和使用工具，比如用骨头或者石片可以敲东西，完成手完成不了的能力。著名的科幻电影《2001太空漫游》中有一个非常著名画面，猿人忽然有一天发现可以拿骨头去敲另外一个骨头，可以把别的骨头敲碎，这就是人类历史上大的进步。他就发现这个骨头不仅可以敲骨头，也可以敲肉，可以敲瓜果，敲野兽，也可以用来防身。那时候人类发现，原来可以拓展四肢的能力，利用外部工具去提高自己的能力。

工业革命之后，人类发现不仅靠传统的工具，还可以靠各种机械的力量代替人类的四肢。我们现在不会无聊到说在肌肉能力方面还可以跟机器一拼，比如去和一辆汽车比赛跑步，应该没有人会这样做了。

其实不仅是肌肉的机能，我们连计算的机能都都已经被淘汰掉了。有没有人可以马上对7开3次方？应该没有。十几块钱的一个计算器可以做到。我们为什么对这种现象不会抱恐惧心理，而对人工智能抱有莫名其妙的恐惧心理？

我们能不能抱着这样一种态度，不是仅仅了解深度学习，而是通过深度学习了解机器学习的原理，通过机器学习原理了解人类学习的机制，进而了解人类智能的运作机制，然后才能够深刻理解人和机器智能特点分别是什么。

取代我们的不是AI，而是被AI赋能的人

这个时代只尊重创新。你昨天是专家，如果你不赶上时代潮流，明天肯定就不是专家了。现在是一个末日感比较强的时代，大家总担心错过机会机会输在起跑线上。巨变的时代，没有起跑线的概念，每天都是起跑线，稍微一放松脚步就会被人超过去，这个时代是压力很大的时代，同时也是机会很大的时代。

理解时代特点，我们要了解深度学习，了解机器学习，进而了解人类学习特点，但是更重要是什么？我们要号准时代的脉搏，要知道在这个时代要采取什么样的态度和策略，才能够跟上时代的脚步。

我们既不要成为时代的弃儿，也不希望成为烈士，我们最希望成为一个先行者。这个时代最大特征就是机器从代替人的四肢开始，已经于无声处开始代替人的大脑，甚至会慢慢代替所有能够出现的人类能力。明白这一点我们才可以理解所处的时代。

面对深度学习和人工智能的发展，一种人选择放弃自己，一种人会产生绝对的抗拒心理，不去主动拥抱这种能力，这都是有问题的。因为这种能力确实很强大，你不去拥抱的话，有可能被去拥抱这种能力的人类所淘汰掉了，被他们产生降维打击的能力了，这个其实很危险的。

与其说是机器或者人工智能，或者机器智能会代替人，倒不如说掌握了机器智能人类变成一种超人类，他们会把不具备这种能力的人类所代替掉，或者所降维打击掉。

地球上的人类都面临这样的挑战，都面临我们如何跟机器智能相处，如何提高我们能力，才能使我们具备更高的能力来应变这个时代的挑战。人工智能带来的这种降维打击还是很强大的，如果我们不认真的应对，去努力学习，并且去积极拥抱这种能力，有可能就真的被降维打击了。

技术是拿来用的，而不是拿来吹和炒的

很多业界专家都有这样的感受，现在媒体对人工智能的炒作过热，反而让广大读者，甚至是决策者失去了去这件事的核心把握。人工智能的核心实际上就是机器学习的能力，就是一种机器智能。现在主要表现方式是深度学习，但并不意味着我们曾经尝试的符号学，用逻辑推理的方式其实并没有过时，只不过还无法实现。

现阶段深度学习取得了巨大突破，引领大家进入到新的未来。新的未来里面会不会是深度学习和其他人工智能、机器学习的方式共存的方式？我们并不知道，所以我们不要排斥这种观点，尤其不要认为现在就是深度学习这一种学习方式。未来应该是人类的学习能力、机器学习能力、深度学习能力和逻辑推理能力是共融共生的阶段，这可能是更加客观描述未来时代特征的一个方面。

智能时代之前的深度学习要靠数据的堆积去学习和驱动。但是现在的数据既不够大，也不够好。虽然我们有很多数据，但是并不算真正的大和好。大数据的概念并不是多，我们数据结构和数据来源没有形成万物互联的社会，物联网没有布局到，5G没有到位，可能数据不够那么多，不够那么好。支撑万物互联的基础架构恰恰是一个云计算的架构。所以倒着讲是智、大、物、云，正着去演绎是云、物、大、智。

如何理解人工智能

如何理解人工智能我总结了四点：首先，一定要应用。如果我们去学了“学会如何学习”的课程就会发现，现在最流行的方式是Problem-Based Learning，就是以问题为导向的学习，以实际解决问题方案的学习。未来是终身学习的时代，不存在大学毕业之后就不学习了。如何终身学习？一定要带着问题去学，这样学得越来越深入，学得越来越有用。人工智能也是一样的，它是一种学习的过程。学习不能为了学而学，一定是问题为导向的。

我的第二个观点就是，深度学习的发展不仅仅要靠数学的进步，不仅仅要靠计算机科学的进步，还要对人类自己的神经、脑神经、传输神经、感知神经的理解，才能知道是怎么回事。

现在我们每个人有基础的学习能力，机器学习也是一样，只是通过开放的接口开放学习的通用能力。未来每个人一定要在通用能力之上，掌握行业的学习能力，才能够真正为人类带来更大的福祉。

第四点就是要真正产生深度学习能力，我们需要有数据，需要有人才，还要有算法和算力。像微软这样专业公司可能会提供更强大的算法和算力，更多的公司需要在人才培养，数据收集上面下很大功夫，这样才能产生互动的促进作用。数据、人才、算法、算力这四者缺一不可。每一方面在未来都巨大的商机，正是因为我们即将进入智能社会，商机恰恰不是只在智能本身，而是各个方面。

没有专家的时代，每个人都要终身学习

这个时代是没有专家的时代，我们每个人都在学习。不存在输在起跑线上，因为每天都在新的起跑线，我们只要不放弃学习，不放弃自己，不要认为我到了某种年纪或某种地位，我就不去学了，也不要因为我是学文科或者我是学理科的我就不要再学其他的知识。

未来需要的是天天学习。因为这个伟大时代还没有来，我们最多是摸着大象的其中一部分，所以每个人都有可能成为最终摸到大象整体的那个人。

正是因为这个时代没有专家，同时也是没有所谓的公理的时代，每一个理论都有可能成为当时可行的理论，但是并不意味着能够成为永远的理论，永远成功的法则。我们要去学习，不要唯各种专家，不要唯新，更重要唯实，你自己去试，小马过河，水是深浅只有自己知道。

最后以比尔·盖茨先生的这段话作为结尾：“人们大都倾向于高估他在一年内所能完成的事情，但又容易低估他们坚持十年后能够取得的成就。”大家一定要明白，第一没有专家，第二没有起跑线，第三每天都在重新更新有新知识新理念出现，先不要放弃自己，同时把握最基本的对自己的自信和信念，认真学习。

精彩提问

Q：我之前也有一些关注，深度学习在反洗钱系统，包括金融诈骗有非常成功的运用，跟您请教一下类似于基金领域方面还有哪些比较成功的先例，在未来十年之内能够用上的应用技术？

韦青：现在大家发现人工智能在防欺诈金融领域有很优秀的使用了，未来有哪些领域能够更好利用现在的人工智能？虽然我们称之为是人工智能，它是机器学习的方法，而现在又是一种深度学习的方法。归根到底，它只是一种数学和算法对人的一种思维方式的模拟，对自然界模型的模拟和认知。只要能够通过数学方法，把自然界能够产生某种模型的模式识别出来，都是现阶段以深度学习为代表的机器智能最大发挥场景。

为什么现在人工智能在图形识别领域，视觉识别和听觉识别有很大进步，而在嗅觉识别和味觉识别，这些方面还没有很大进步，为什么？因为视觉和听觉信号的传播和识别的方式，恰恰能够被数学的矩阵方式所来描述，正是因为这样它就能够用数学的方式去表达出神经网络的方式能够进行学习。

在未来不管是五年还是十年，如果我们发现了某种数学表达方式能够形容味觉、嗅觉、触觉的话，人类这些功能也会被机器能力所代替，而且可以做得更好。其实不是说人工智能或者机器智能，什么做得更好，其实是数学能够更精确的表达人类某种产生的信号，哪个能够识别出来，哪就有非常美好的前景。

Q：5G时代，AI时代，从毕业生转为职场人，能立于不败之地的硬本领和素质有哪些？三点即可。

韦青：这个时代需要形成你自己的观点，你需要具备一种从现象抓本质的能力。学习是一种能力，学习有科学的方法。科学的方法不是我们通常意义上理解的某个人做事科学不科学，其实科学方法是一种方法论。学习方法还有一种苏格拉底提问法，或者丰田五问法。我觉得这个时代恰恰需要掌握科学的方法，比如丰田五问法和苏格拉底的提问法。因为这种学习方法是不迷信的，不唯专家，不唯前辈，不唯理论，只唯实。现在5G吹捧的很多，很少有人知道5G除了速度快以外，有另外两个真正能够引领万物互联的特征。第一个特征是寻址，地址的极度扩大，不仅能够寻IPV4，也能寻IPV6的地址，这样就能够帮助我们进入万物互联信息采集和传输时代。另外一个特点是低延时，低延时才能真正解决万物互联时代神经传播的原理。

5G并不一定是解决人工智能万物互联的唯一方法。中国在这方面有很多优势，我们恰恰是唯实的民族。广州、深圳的很多公司创新创业，不管技术是什么，而是看有没有用。科学方法另外一种解读，实践是检验真理的唯一标准，科学方法的前身就是实践论。真正悟透了科学的方法、苏格拉底提问法和丰田五问法，一定可以应变各种纷纭的说法、理论、见解。我认为到了以现在造词的速度来讲，2020年深度学习的概念就不流行了，一定会有一个我们现在没有想到的新词变得很流行。到了那个时候，我们是否要把好不容易学的深度学习理念丢掉去学习新的概念或方法，还是说它只是原来方法的变种。如果有科学的方法，苏格拉底的学习方法和丰田五问法，就能够让你辨别出什么是真实的知识，什么是暂时的虚幻。

Q：业界和学界有观点认为AI不会取代人类，只会让人类越来越聪明。同时我们看到很多企业家，比如说埃隆·马斯克特别担心AI成为独裁者，您更认同哪个观点？

韦青：首先以埃隆·马斯克的说法开始，他最早答案是Open AI，它背后的含义和现在世界经济论坛的方法是如出一辙的，是要解决数字鸿沟的问题。

马斯克的意思是这个新生事物非常强大，远超出我们人类能够想象的强大程度。拥有这种能力的人类将变成一种超人类，如果这种超能力被掌握在居心不良人类手中，就可能对不具备这种能力的人类产生压迫式的打击。

所以他的方法有两种，一种是不发展它，人类历史证明了不可行的，因为你不发展可以，有人会发展。另外一种方法我努力拥抱它，我让它变成公器，不是私器。你要把拥有巨大能力的工具变成公器，每个人都有，我要让它平民化。有一类观点认为一旦平民化之后，再厉害的能力和工具也会为广大人类产生福祉。这里面有一个隐忧，人类不能自己放弃自己，不能因为我是学文科的，我已经60岁了，我本来就是学计算机的，所以我不用学这个了，在我看来这就是放弃掉自己了。

埃隆·马斯克不认为人类能够把控住自己，他建议禁止研究人工智能。但他同时推出另外的方法就是Open AI，他把两种方案都执行了。一方面要管控，另外一方面让它开放，有责任感各大公司都在这么做。

人工智能行业门槛并不高，行业学着把各种算法全部开源了。现在真正的垄断或者鸿沟并不是产生在算法上，反而产生在数据上的。很多企业在这样做，但是很多个人没有明白这一点，没有努力拥抱这种变化，结果平白无故的担心我是否会被淘汰。人类会不会所谓的技术淘汰？

我认为也会也不会。当你主动放弃了自己，没有主动去拥抱这种技术，会被拥抱这种技术的人类淘汰，人不会被技术淘汰的，是被掌握了更高技术的人类淘汰了。通过这个高度去理解，埃隆·马斯克的观点与比尔·盖茨、霍金、世界经理论坛的各种企业家的观点如出一辙，最终核心点有两点：第一人工智能的能力非常强大，第二谁拥有它。

第二点谁拥有它，有悲观认知，有乐观认知。悲观认知认为由于人类的惰性，技术只能被那些积极主动、思维敏感的人拥有。很多企业家认识到了这一点，所以选择让技术平民化、普及化。——大数据文摘出品

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”