会员服务 ·

围棋AI ELF OpenGo全面开源，田渊栋揭秘训练过程

2019 年 2 月 14 日 量子位

铜灵发自凹非寺
量子位出品 | 公众号 QbitAI

现在，随时、随地、随心情，你都能和国际顶级围棋AI对战交流一局了。

最近，Facebook的围棋AI ELF OpenGo全面开源，下载ELF OpenGo最终版本模型，人人都能与ELF OpenGo下棋。

对了，不要被ELF OpenGo“超能力”般的棋艺惊叹到，不仅是你，连韩国棋院的专业围棋选手也被打败了。在与金志锡，申真谞，朴永训及崔哲瀚四位专业棋手对战时，ELF OpenGo以20：0的成绩大赢特赢。

甚至围棋AI界小有名气的前辈Leela Zero，也以18：980的成绩被ELF OpenGo远远甩在身后。

今天，Facebook公布了ELF OpenGo的研究论文，复现了AlphaGo Zero和AlphaZero，还详细揭秘了ELF OpenGo的训练细节，附带了一系列开源地址。

15天，15天

在今天刚发布的论文ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero中，Facebook研究人员全面披露了ELF OpenGo的训练过程。

ELF OpenGo是去年诞生的。当时，Facebook改进了自己面向游戏的机器学习框架ELF，在上面重新实现了DeepMind的AlphaGoZero及AlphaZero的算法，得到了这个围棋AI ELF OpenGo。

论文显示，训练过程大部分遵循了AlphaZero的训练过程。

和AlphaZero用5000个自我对弈的TPU和64个训练TPU不同，整个训练过程共用了2000块英伟达GPU，型号均为英伟达Tesla V100 GPU，内存为16GB，总共训练了15天。

研究人员还应用了ELF OpenGo，完成了另外三方面突破。

一方面，为ELF OpenGo训练处一个棋艺超越人类的模型。

研究人员开发了一个类似AlphaZero的软件，在上面用2000块GPU连续训练了9天后，这个20个区块的模型的表现已经超过了人类水平。

随后，研究人员提供了一些预训练模型、代码和2000万局自我对弈的训练轨迹数据集进行训练。

第二方面，研究人员提供了模型在训练过程中的行为分析：

在训练过程中，研究人员观察到，ELF OpenGo与其他模型相比，水平变化比较大，即使学习率稳定，棋力也会上下浮动。
另外，模型需要依靠前瞻性来决定下一步棋怎么下时，模型学习速度较慢，学习难度很大。
除此之外，研究人员还在探索了在游戏的不同阶段AI学会高质量的棋法的速度。

第三方面，研究人员进行了Mextensive ablation实验，学习AlphaZero风格算法的属性，对比了ELF OpenGo与AlphaGo Zero与AlphaZero的训练过程。

研究人员发现，对于最终模型而言，对局中加倍rollout水平大约提升200 ELO，AI的发挥会受到模型容量的限制。

目前，ELF OpenGo的论文、模型、实现代码、自我对弈数据集和与人类对弈记录等已经全部开放，地址可到文末寻找。

明星团队

这篇论文来自Facebook人工智能研究所（FAIR），一作国内机器学习圈里一个熟悉的名字，田渊栋。

田渊栋从卡内基梅隆大学（CMU）毕业后，田渊栋奔赴谷歌无人车项目组，随后跳槽转向Facebook人工智能研究所。Facebook围棋AI Darkforest的相关研究，负责人和论文一作也是田渊栋。

△ 田渊栋本人

田渊栋也一直活跃在知乎，是人工智能、深度学习话题的优秀回答者，是知乎er心中的大神。

去年，田渊栋回顾自己近几年的工作感悟和学习生涯的文章《博士五年之后五年的总结》，曾成为圈内的爆款文章，不少网友再次被圈粉，大呼醍醐灌顶。

论文二作Jerry Ma也同样为华裔，其Facebook介绍显示，2018年，Jerry Ma刚刚本课毕业，获得哈佛大学经济学和古典文学学士双学位。目前担任Facebook研究工程负责人。

△ Jerry Ma

年纪不大，责任不小。

传送门

GitHub地址：
https://github.com/pytorch/ELF

论文地址：
https://arxiv.org/abs/1902.04522v1

Facebook博客介绍：
https://ai.facebook.com/blog/open-sourcing-new-elf-opengo-bot-and-go-research/

ELF OpenGo官网：
https://facebook.ai/developers/tools/elf-opengo

另外，如果你自带Windows系统的电脑，还可以下载这个软件，在线下棋。下载地址：

https://dl.fbaipublicfiles.com/elfopengo/play/play_opengo_v2.zip

— 完 —

加入社群

量子位现开放「AI+行业」社群，面向AI行业相关从业者，技术、产品等人员，根据所在行业可选择相应行业社群，在量子位公众号（QbitAI）对话界面回复关键词“行业群”，获取入群方式。行业群会有审核，敬请谅解。

此外，量子位AI社群正在招募，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式。

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

登录查看更多

相关内容

AlphaZero

关注 2

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

专知会员服务

15+阅读 · 2020年1月13日

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

量子位

19+阅读 · 2018年12月23日

谷歌大脑QT-Opt算法，机器人探囊取物成功率96%，Jeff Dean大赞

量子位

4+阅读 · 2018年6月29日

【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D

GAN生成式对抗网络

5+阅读 · 2018年1月13日

这个高仿真框架AI2-THOR，想让让强化学习快速走进现实世界

量子位

6+阅读 · 2017年12月16日

今日Nature: 人工智能从0到1, 无师自通完爆阿法狗100-0 | 深度解析

知社学术圈

3+阅读 · 2017年10月18日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

On Improving Decentralized Hysteretic Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年12月15日

DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks

Arxiv

4+阅读 · 2018年4月3日

Game of Sketches: Deep Recurrent Models of Pictionary-style Word Guessing

Arxiv

5+阅读 · 2018年1月29日

Improving Visually Grounded Sentence Representations with Self-Attention

Arxiv

8+阅读 · 2017年12月2日

VIP会员

围棋AI ELF OpenGo全面开源，田渊栋揭秘训练过程

铜灵 发自 凹非寺量子位 出品 | 公众号 QbitAI

15天，15天

明星团队

△ 田渊栋本人

△ Jerry Ma

传送门

相关内容

铜灵发自凹非寺
量子位出品 | 公众号 QbitAI