比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类!

2017 年 12 月 6 日 德先生


来源:知乎作者@PENG Bo


读过AlphaGo Zero论文的同学,可能都惊讶于它的方法的简单。另一方面,深度神经网络,是否能适用于国际象棋这样的与围棋存在诸多差异的棋类?MCTS(蒙特卡洛树搜索)能比得上alpha-beta搜索吗?许多研究者都曾对此表示怀疑。


但今天AlphaZero来了(https://arxiv.org/pdf/1712.01815.pdf),它破除了一切怀疑,通过使用与AlphaGo Zero一模一样的方法(同样是MCTS+深度网络,实际还做了一些简化),它从零开始训练:


  • 4小时就打败了国际象棋的最强程序Stockfish!

  • 2小时就打败了日本将棋的最强程序Elmo!

  • 8小时就打败了与李世石对战的AlphaGo v18!



在训练后,它面对Stockfish取得100盘不败的恐怖战绩,而且比之前的AlphaGo Zero也更为强大(根据论文后面的表格,训练34小时的AlphaZero胜过训练72小时的AlphaGo Zero)。



这令人震惊,因为此前大家都认为Stockfish已趋于完美,它的代码中有无数人类精心构造的算法技巧。


然而现在Stockfish就像一位武术大师,碰上了用枪的AlphaZero,被一枪毙命。


在reddit的国象版面的讨论中(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm • r/chess),大家纷纷表示AlphaZero已经不是机器的棋了,是神仙棋,非常优美,富有策略性,更能深刻地谋划(maneuver),完全是在调戏Stockfish。


喜欢国象的同学注意了:AlphaZero不喜欢西西里防御。



训练过程极其简单粗暴。超参数,网络架构都不需要调整。无脑上算力,就能解决一切问题。


Stockfish和Elmo,每秒种需要搜索高达几千万个局面。


AlphaZero每秒种仅需搜索几万个局面,就将他们碾压。深度网络真是狂拽炫酷。





当然,训练AlphaZero所需的计算资源也是海量的。这次Deepmind直接说了,需要5000个TPU v1作为生成自对弈棋谱。


不过,随着硬件的发展,这样的计算资源会越来越普及。未来的AI会有多强大,确实值得思考。


个人一直认为MCTS+深度网络是非常强的组合,因为MCTS可为深度网络补充逻辑性。我预测,这个组合未来会在更多场合显示威力,例如有可能真正实现自动写代码,自动数学证明。


为什么说编程和数学,因为这两个领域和下棋一样,都有明确的规则和目标,有可模拟的环境。


在此之前,深度学习的调参党和架构党估计会先被干掉...... 目前的很多灌水论文,电脑以后自己都可以写出来。


也许在5到20年内,我们会看到《Mastering Programming and Mathematics by General Reinforcement Learning》。然后许多人都要自谋出路了......



版权归原作者所有,如有侵权请联系小编删除。


📚往期文章推荐

人工智能名人堂第49期 | 斯坦福研究院名人堂成员:Peter E. Ha

🔗CFP | Virtual Images for Visual Artificial Intelligence

🔗何时机器会掌握常识?Hinton坚持10年内,Lecun说20年

🔗Capsule后最新研究,用软决策树更好理解DNN分类

🔗重磅:第十四批国家千人计划青年项目拟入选名单出炉!

🔗人工智能名人堂第55期 | BP算法之父: Paul J. Werbos

🔗《机器崛起》| 加密数字货币—“密码朋克”的反抗

🔗周末读书|《里根传》:不会演讲的演员不是好总统

🔗中国工程院院士李正名谏言教育部长:科研评价过于注重论文篇数

🔗他本该获得诺奖,却成了汽车店司机

🔗她是中科院唯一女院士:拒绝参加开国大典,只为做个好医生


德先生公众号 | 往期精选


在公众号会话位置回复以下关键词,查看德先生往期文章!


人工智能|机器崛起|区块链|名人堂

虚拟现实|无人驾驶|智能制造|无人机

科研创新|网络安全|数据时代|人机大战

……

更多精彩文章正在赶来,敬请期待!


点击“阅读原文”,移步求知书店,可查阅选购德先生推荐书籍。

登录查看更多
1

相关内容

AlphaGo Zero是谷歌下属公司Deepmind的新版程序。从空白状态学起,在无任何人类输入的条件下,AlphaGo Zero能够迅速自学围棋,并以100:0的战绩击败“前辈”。 2017年10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。Deepmind的论文一发表,TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
38+阅读 · 2020年3月9日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
169+阅读 · 2020年2月8日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
李开复:听AI大佬吐槽真实的人工智能
算法与数学之美
4+阅读 · 2018年8月26日
一万小时贫穷定律
互联网er的早读课
5+阅读 · 2018年8月22日
零基础搞懂强化学习?这份视频攻略不算迟
AI研习社
6+阅读 · 2018年4月25日
AlphaZero 实战:从零学下五子棋(附代码)
AI研习社
3+阅读 · 2018年1月13日
从零基础成为深度学习高手——Ⅰ
计算机视觉战队
7+阅读 · 2017年12月7日
一张图看懂AlphaGo Zero
AI前线
5+阅读 · 2017年11月17日
已删除
将门创投
5+阅读 · 2017年10月20日
Conceptualize and Infer User Needs in E-commerce
Arxiv
3+阅读 · 2019年10月8日
Arxiv
3+阅读 · 2018年6月24日
Arxiv
6+阅读 · 2018年3月12日
VIP会员
相关资讯
李开复:听AI大佬吐槽真实的人工智能
算法与数学之美
4+阅读 · 2018年8月26日
一万小时贫穷定律
互联网er的早读课
5+阅读 · 2018年8月22日
零基础搞懂强化学习?这份视频攻略不算迟
AI研习社
6+阅读 · 2018年4月25日
AlphaZero 实战:从零学下五子棋(附代码)
AI研习社
3+阅读 · 2018年1月13日
从零基础成为深度学习高手——Ⅰ
计算机视觉战队
7+阅读 · 2017年12月7日
一张图看懂AlphaGo Zero
AI前线
5+阅读 · 2017年11月17日
已删除
将门创投
5+阅读 · 2017年10月20日
Top
微信扫码咨询专知VIP会员