刚刚,DeepMind被IJCAI授予杰出成就奖,因为他家把AlphaGo Zero做成了暖心的新垣结衣?

2017 年 10 月 20 日 数据玩家

本文授权转载自AI科技大本营(ID:rgznai100)


啥都别说,先看图好不好



首先,恭喜DeepMind荣获大奖。


其次,获奖评语中,一定不会少的是对他家新品AlphaGo Zero的大加赞叹。


这货3天走完人类的千年棋史,这样的影响力,柯洁也坐不住了:



“AlphaGo在两年内达到的成绩令人震惊。现在,AlphaGo Zero是我们最强版本,提高了计算效率,并且没有使用到任何人类围棋数据,”AI科技大本营援引AlphaGo之父、DeepMind联合创始人兼CEO 戴密斯·哈萨比斯(Demis Hassabis)的话说到,“最终,我们想要利用它的算法突破,去帮助解决各种紧迫的现实世界问题,如蛋白质折叠或设计新材料。如果可以在这些问题上取得进展,那么它就有潜力推动人们理解生命,并以积极的方式影响我们的生活。”


好励志,好有爱,好脱俗的理想!32个赞妥妥送上!


拉回现实,这货怎么就这么牛呢?咋就能刷屏呢?


在知乎上,来自纽约大学 (New York University) · 数学&大气与海洋科学的资深博主不会功夫的潘达有一段评价,特别精彩,获得了至今为止最多的1179个点赞量,来,营长带你看一看:


旧版的AlphaGo,虽然神功小成,但斧凿痕迹显著。好似一只机器人女友,虽有绝色容颜,却长着机械手、声音冷如谷歌娘。理想的围棋人工智能,应该是简洁、优雅、浑然天成,就像死宅们的老婆新垣结衣一样。


而新版的AlphaGo,真的造出了栩栩如生的Gakki(新垣结衣)。


且不说这货3天学会blablabla,单说它的不矫情,不铺张,不依赖,不冗杂,如何能让我辈程序员不心动,不跟风,不转发,不点赞呢?人工智能当如是也。


有图有真相


这位“不会功夫的潘达”说,他读着新论文,对比前一个版本的论文(即AlphaGo Fan版本),脑补画面如下:


旧版AlphaGo:



AlphaGo Zero:



相比原机器人女友,sorry,旧版AlphaGo,这位博主为何会有如此感官呢?他在知乎中解释如下:


知乎资深博主:


具体地说,AlphaGo Zero相比于初代AlphaGo,有以下几点改进:


1. 将策略网络和价值网络合并,组成一个可以同时输出策略p和价值v的新网络


1.1 简化了新网络的结构。新策略·价值网络的输入特征平面由48个减少到了17个。其中,涉及围棋知识的输入特征(气(liberty)、征子(ladder))被删去。


2. 新策略·价值网络只需通过强化学习来训练,无需监督学习。即无需输入人类高手棋谱作为初始训练样本,只需用随机落子作为初始训练样本。


3. 优化了蒙特卡洛搜索树,主要是省去了快速走子(rollout policy),节约大量实战计算成本。


3.1 快速走子策略也需要输入大量人类已知的围棋知识,比如如何点死大眼(Nakade, 如点死直三、丁四、刀把五等棋型的唯一招法)。省去快速走子,也就省去了输入这些知识的麻烦。


4. 改卷积网络为残差网络,提高训练效率。


留下的,是一个从零开始训练的神经网络,以及用简单到不能再简单的MCTS算法行棋的AlphaGo Zero。


本着对技术的无比执着之心(偶尔营长也爱走点八卦娱乐路线),以及对人类未来无比关切之心,以及对自身的高标准要求,营长决定,必须来点技术干货,因此,特别邀请到对强化学习颇有研究的Yuxi Li 博士,让远在大洋彼岸的他牺牲点睡眠时间,为我们如饥似渴求点拨求新知的读者们作点科普性的解读。


此处应有掌声


Yuxi Li 博士从加拿大发来的解读:


今天Deepmind在《自然》杂志发表论文,介绍了不用人类知识的AlphaGo Zero, 从零学起,训练出围棋顶尖高手。计算机围棋作为长久以来人工智能努力攻克的目标,搜索空间巨大,评估函数非常难于设计。


AlphaGo Zero与以前版本最大的不同是完全用强化学习的self-play技术,左右互搏,不用人类的棋谱和围棋知识,无师自通。AlphaGo Zero直接用黑白棋作为输入,而没有做任何特征工程处理。AlphaGo Zero只用一个深度神经元网络,输出策略和价值,而不是像以前的版本,分别用策略网络和价值网络。AlphaGo Zero把蒙特卡洛树搜索与强化学习结合在了一起,高效、高质量地进行采样,是一种基于模型的做法;没有采用并不很准确的快速走子网络。


AlphaGo Zero以100:0的骄人成绩战胜了与李世乭对弈的版本AlphaGo Lee. AlphaGo Zero训练3天就达到AlphaGo Lee的水平,训练21天达到AlphaGo Master的水平,训练40天则超过所有其它AlphaGo版本。AlphaGo Master是2017年初60盘横扫棋坛和2017年5月与柯洁对弈的版本。在耗能方面,第一篇《自然》杂志论文中的AlphaGo用176个GPU,对战李世乭时的版本用48个TPU,而AlphaGo Master和AlphaGo Zero用4块TPU。当然,AlphaGo训练时的计算量仍然巨大。


AlphaGo Zero从零开始训练,学到了一些类似于人类的策略,也学到了一些不同于人类的打法。人类棋手应该开始向人工智能学习围棋技术了。


AlphaGo的成功,是人工智能的成功,是AlphaGo底层技术---深度学习,强化学习,蒙特卡洛树搜索---的成功。而这些人工智能技术应用非常广泛。深度学习一般用于有监督学习,比如图像分类。深度学习在语音识别、图像识别等领域已经取得革命性的突破。深度学习也在药物发现、基因表达等众多领域有着广泛应用。强化学习一般用于序列决策问题,在游戏、机器人、自然语言处理、金融、医疗、智能交通、智慧城市、智能电网、工业4.0等领域有广泛应用。蒙特卡洛树搜索则可用于传统人工智能中的规划、调度等问题。详情参见《深度强化学习综述》https://arxiv.org/abs/1701.07274.


另一方面,我们也应该看到AlphaGo技术的局限性。深度学习和强化学习一般都需要大量数据。围棋作为一种完美信息博弈,有着明确的规则,我们可以通过这些规则产生大量数据,使用强化学习的self-play技术训练。 有些问题,比如星际争霸,虽然我们可以知道规则,但是搜索空间很可能太庞大,无法直接应用AlphaGo技术。还有很多问题,比如自动驾驶、医疗等,数据不容易获取,也不一定有明确的规则,这样就很难应用AlphaGo技术。但是,通过人工智能的进一步进展,比如在非监督学习、迁移学习、小数据学习等方面的发展,提高人工智能在知识表达、推理、逻辑等方面的能力,我们有望取得更多突破。


AlphaGo的成功是深度强化学习的开始。我们会看到深度强化学习取得更多突破,在更多领域的应用。我们也会越来越接近通用人工智能。


就在此次事件出来的第一时间,卡耐基梅隆大学机器人系博士,Facebook人工智能组研究员田渊栋就此事也在知乎发表了详细的技术点评,其在短短3个小时内,便获得了700个点赞。让我们来看一看。


Facebook人工智能组研究员田渊栋博士解读:




老实说这篇Nature要比上一篇好很多,方法非常干净标准,结果非常好,以后肯定是经典文章了。


Policy network和value network放在一起共享参数不是什么新鲜事了,基本上现在的强化学习算法都这样做了,包括我们这边拿了去年第一名的Doom Bot,还有ELF里面为了训练微缩版星际而使用的网络设计。另外我记得之前他们已经反复提到用Value network对局面进行估值会更加稳定,所以最后用完全不用人工设计的default policy rollout也在情理之中。


让我非常吃惊的是仅仅用了四百九十万的自我对局,每步仅用1600的MCTS rollout,Zero就超过了去年三月份的水平。并且这些自我对局里有很大一部分是完全瞎走的。这个数字相当有意思。想一想围棋所有合法状态的数量级是10^170(见Counting Legal Positions in Go),五百万局棋所能覆盖的状态数目也就是10^9这个数量级,这两个数之间的比例比宇宙中所有原子的总数还要多得多。仅仅用这些样本就能学得非常好,只能说明卷积神经网络(CNN)的结构非常顺应围棋的走法,说句形象的话,这就相当于看了大英百科全书的第一个字母就能猜出其所有的内容。用ML的语言来说,CNN的induction bias(模型的适用范围)极其适合围棋漂亮精致的规则,所以稍微给点样本水平就上去了。反观人类棋谱有很多不自然的地方,CNN学得反而不快了。我们经常看见跑KGS或者GoGoD的时候,最后一两个百分点费老大的劲,也许最后那点时间完全是花费在过拟合奇怪的招法上。


如果这个推理是对的话,那么就有几点推断。


一是对这个结果不能过分乐观。我们假设换一个问题(比如说protein folding),神经网络不能很好拟合它而只能采用死记硬背的方法,那泛化能力就很弱,Self-play就不会有效果。事实上这也正是以前围棋即使用Self-play都没有太大进展的原因,大家用手调特征加上线性分类器,模型不对路,就学不到太好的东西。一句话,重点不在左右互搏,重点在模型对路。


二是或许卷积神经网络(CNN)系列算法在围棋上的成功,不是因为它达到了围棋之神的水平,而是因为人类棋手也是用CNN的方式去学棋去下棋,于是在同样的道路上,或者说同样的induction bias下,计算机跑得比人类全体都快得多。假设有某种外星生物用RNN的方式学棋,换一种induction bias,那它可能找到另一种(可能更强的)下棋方式。Zero用CNN及ResNet的框架在自学习过程中和人类世界中围棋的演化有大量的相似点,在侧面上印证了这个思路。在这点上来说,说穷尽了围棋肯定是还早。


三就是更证明了在理论上理解深度学习算法的重要性。对于人类直觉能触及到的问题,机器通过采用有相同或者相似的induction bias结构的模型,可以去解决。但是人不知道它是如何做到的,所以除了反复尝试之外,人并不知道如何针对新问题的关键特性去改进它。如果能在理论上定量地理解深度学习在不同的数据分布上如何工作,那么我相信到那时我们回头看来,针对什么问题,什么数据,用什么结构的模型会是很容易的事情。我坚信数据的结构是解开深度学习神奇效果的钥匙。


另外推测一下为什么要用MCTS而不用强化学习的其它方法(我不是DM的人,所以肯定只能推测了)。MCTS其实是在线规划(online planning)的一种,从当前局面出发,以非参数方式估计局部Q函数,然后用局部Q函数估计去决定下一次rollout要怎么走。既然是规划,MCTS的限制就是得要知道环境的全部信息,及有完美的前向模型(forward model),这样才能知道走完一步后是什么状态。围棋因为规则固定,状态清晰,有完美快速的前向模型,所以MCTS是个好的选择。但要是用在Atari上的话,就得要在训练算法中内置一个Atari模拟器,或者去学习一个前向模型(forward model),相比actor-critic或者policy gradient可以用当前状态路径就地取材,要麻烦得多。但如果能放进去那一定是好的,像Atari这样的游戏,要是大家用MCTS我觉得可能不用学policy直接当场planning就会有很好的效果。很多文章都没比,因为比了就不好玩了。


另外,这篇文章看起来实现的难度和所需要的计算资源都比上一篇少很多,我相信过不了多久就会有人重复出来,到时候应该会有更多的insight。大家期待一下吧。


重大福利提醒:今晚,北京时间凌晨1点,David Silver和Julian Schrittwieser将在著名网站Reddit举办一场能够问他任何问题的AMA,对于这场问答中披露的更多细节,AI科技大本营将在第一时间带给大家。


还有那么几个小时才能等到答案,要不营长先带你们来看看一些值得关注的问题,吊吊你们的胃口也是极好的


1.sml0820:相比于围棋,《星际争霸 II》的要难到什么程度?目前所困住你们的主要技术障碍是什么?阿尔法元的新方法对此有何帮助?


2.Cassandra120: 你们认为AlphaGo有希望解决史上最难的围棋问题(Igo Hatsuyôron's 120)吗?即赢得下述链接http://igohatsuyoron120.de/2015/0039.htm中所给定的中盘对弈,或是确认某一种给定走子方案的正确与否?


3.fischgurke:AlphaGo 大战柯洁时,你们所承诺的“AlphaGo tool”做到什么程度了?它最终的形态会是什么样呢?一个可以咨询AlphaGo关于围棋对弈决策的在线界面吗?


4.pjox: 既然AlphaGo已经退役了,你们有没有打算公布它的源代码呢?这将对全球围棋社区与当前的机器学习研究产生巨大的影响。关于德米斯·哈萨比斯在乌镇所宣布的围棋工具,到底到啥时候你们才能发布出来?


5.RayquazaDD:  感谢你们举办此次AMA。关于最新发布的AlphaGo Zero论文:


  1. 最新的AlphaGo Zero是否依然在训练中?它接下来的突破会是什么方向?还是另一个版本的自我对弈吗?

  1. 论文中提到,无论执黑还是执白,AlphaGo Zero都能赢AlphaGo master两子。然而,在最后的自我对局中,AlphaGo Zero却在像人类棋手一样点小目,其中的原因是什么呢?

  2. 你们在论文中提到,AlphaGo Zero以89:11赢得它同AlphaGo Master的对战,这100局棋谱能否对外公布?


    多么好学的孩子们啊,快,到营长的怀抱里来。瞧瞧你们!就当营长这一亩三分地儿是AMA吧,有啥好问题,留言区走着...没准营长就能帮你解答一二


    说了这么多,其实,营长还是有点细思极恐的拔凉拔凉横在心口,正如以下微博的留言,唉...



    天天给你们做资讯,天天被AI鄙视,今天是被狗鄙视了!!!


    附:


    点评大咖背景资料


    Yuxi Li 博士:加拿大阿尔伯塔大学(University of Alberta)计算机系博士、博士后。曾在中国任副教授、在美国任资深数据科学家。在强化学习、深度学习、机器学习、人工智能等领域有十余年研发经验。于2017年在arXiv上发表Deep Reinforcement Learning: An Overview《深度强化学习综述》,https://arxiv.org/abs/1701.07274,引起广泛关注。最近创办attain.ai公司。


    田渊栋博士:田渊栋,卡耐基梅隆大学机器人系博士学位、上海交通大学硕士学位和学士学位,前谷歌无人车项目组成员,现任 Facebook 人工智能组研究员,主要负责 Facebook 的智能围棋项目 Dark Forest。


    限时干货下载

    Step 1:长按下方二维码,添加微信公众号“数据玩家「fbigdata」”

    Step 2:回复【2】免费获取完整数据分析资料「包括SPSS\SAS\SQL\EXCEL\Project!」


    登录查看更多
    2

    相关内容

    AlphaGo Zero是谷歌下属公司Deepmind的新版程序。从空白状态学起,在无任何人类输入的条件下,AlphaGo Zero能够迅速自学围棋,并以100:0的战绩击败“前辈”。 2017年10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。Deepmind的论文一发表,TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。
    【Nature论文】深度网络中的梯度下降复杂度控制
    专知会员服务
    38+阅读 · 2020年3月9日
    深度强化学习策略梯度教程,53页ppt
    专知会员服务
    176+阅读 · 2020年2月1日
    2019必读的十大深度强化学习论文
    专知会员服务
    57+阅读 · 2020年1月16日
    谷歌机器学习速成课程中文版pdf
    专知会员服务
    143+阅读 · 2019年12月4日
    【CCL 2019】ATT-第19期:生成对抗网络 (邱锡鹏)
    专知会员服务
    48+阅读 · 2019年11月12日
    深度强化学习入门,这一篇就够了!
    机器学习算法与Python学习
    26+阅读 · 2018年8月17日
    这4门AI课程,堪称本年度最佳
    人工智能头条
    11+阅读 · 2018年7月6日
    零基础搞懂强化学习?这份视频攻略不算迟
    AI研习社
    6+阅读 · 2018年4月25日
    深度强化学习的弱点和局限
    论智
    6+阅读 · 2018年2月27日
    深度强化学习的弱点和局限(上)
    论智
    8+阅读 · 2018年2月26日
    一张图看懂AlphaGo Zero
    AI前线
    5+阅读 · 2017年11月17日
    AliCoCo: Alibaba E-commerce Cognitive Concept Net
    Arxiv
    13+阅读 · 2020年3月30日
    Arxiv
    5+阅读 · 2019年10月31日
    Arxiv
    30+阅读 · 2019年3月13日
    VIP会员
    相关VIP内容
    相关资讯
    深度强化学习入门,这一篇就够了!
    机器学习算法与Python学习
    26+阅读 · 2018年8月17日
    这4门AI课程,堪称本年度最佳
    人工智能头条
    11+阅读 · 2018年7月6日
    零基础搞懂强化学习?这份视频攻略不算迟
    AI研习社
    6+阅读 · 2018年4月25日
    深度强化学习的弱点和局限
    论智
    6+阅读 · 2018年2月27日
    深度强化学习的弱点和局限(上)
    论智
    8+阅读 · 2018年2月26日
    一张图看懂AlphaGo Zero
    AI前线
    5+阅读 · 2017年11月17日
    Top
    微信扫码咨询专知VIP会员