使用模仿学习攻克Atari最难游戏!DeepMind新论文解读

2018 年 6 月 9 日 CreateAMind
使用模仿学习攻克Atari最难游戏!DeepMind新论文解读



文:CreateAMind陈七山
论文名:Playing Hard Exploration Games by Watching YouTube

https://arxiv.org/pdf/1805.11592.pdf


DeepMind上周发布的论文,在几个公认对AI来说难度极大的Atari游戏:Montazuma's Revenge, Pitfall, 和 Pirate Eye上都表现出了超越人类的水平。

以下两张图为论文方法的效果,可以感受一下AI行云流水般的操作:





1关于模仿学习


模仿学习(Imitation Learning)是智能体学习的关键部分,从小孩学习发声说话,到学写字临摹字帖,都是通过模仿来学习某种技能。对于很多复杂的强化学习任务,探索空间庞大,奖励稀疏因而难以学习。这时如果引入一些专家示范,指引模型一步步的行为,就能极大减少探索空间,从而完成复杂任务。


模仿学习的思路大概分为两种:一种是逆向强化学习(Inverse Reinforcement Learning)[1],关注如何从专家的示范中抽象出目标函数;另一种则是行为复制(Behavioral Cloning)[2],让模型遇到相近的情形时,做出与专家相同的反应。


考虑一个马尔科夫决策过程(Markov Decision Process, MDP)的序列 (State1, Action1, State2, Action2 ... )。最简单的行为复制,就是让模型拟合专家的决策序列,使其在遇到专家示范过的State时,有产生对应Action的能力。


这篇文章也是采取了行为复制的思路,而专家示范取材于YouTube上的人类玩家游戏的视频。但如果直接应用最简单的行为复制模仿学习,是存在以下两个问题的:1. 如下图所示,由于尺寸,分辨率等原因,测试时的画面与学习的视频有细微不同,观察抽象得到的State也不同。2. 视频中并没有动作信号(键盘操作),所以不能直接拟合Action。


对应的解决方法是:1. 通过游戏状态相关的视频图像投影,来消除视频画面差异的影响。2. 在模仿学习中结合强化学习来探索Action。接下来我将详细介绍这两个方法。


2游戏状态相关的视频图像投影


对于上述第一个问题,一种方法是与Third-Person Imitation Learning[3]中的方法类似,设计一种变换将环境目标环境直接变换过来,从而修正环境的差异。但本文作者创造性地设计了时序距离分类(Temporal distance classification, TDC)的附加任务,得到游戏状态相关的视频图像投影,将游戏状态相近的视频Frame投影到相近的State


考虑多个不同来源的游戏视频图像,图像中的游戏状态(主人公和怪物的位置,道具的有无等)是关键的要素,而画面噪点,颜色的微小差异都应该被忽略掉。也就是说,如果将这些游戏图像投影到低维空间里时,投影只与图像中的游戏状态相关,而与画面颜色尺寸差异无关,那么不同视频来源之间的画面颜色和尺寸差异就成功地被忽略了。


正是基于这个思想,作者提出构建一种保持图像游戏状态信息的投影方法。如下图,图b中4个来源不同的游戏视频的投影用4种颜色表示在c和d中,图c是作者提出的投影方法,而图d是直接使用源图像源像素直接做投影。可以看到,图a中红色的角色移动路径在c中也是一条路径,说明c是保留了游戏状态信息,而忽略了画面差异的投影。而在d中,视频来源相同的图像聚类在了一起,不能表示出a中的游戏路径,说明主要聚类依据是视频来源的画面因素。



形成与游戏状态相关的投影的具体做法是,定义一个时序距离分类(Temporal distance classification, TDC)辅助任务。如下图,φ函数表示投影函数,v和w为视频中任意提取的两帧。训练一个分类器τ,τ(φ(v), φ(w)) 的作用是分类出v帧和w帧之间的时间差是多大,例如图中红框标出的[3 - 4],即是说v帧和w帧之间的时间差3在[3, 4]这个区间内。



为了分类出任意两帧之间的时间差,模型需要理解图像中角色和道具的运动和变化规律,这就使得投影函数φ拥有了表示游戏状态的能力。有了游戏状态相关的投影函数φ,就能够得到游戏状态序列供模仿学习参考。作者通过设计一个看似无用的辅助分类任务,就得到了游戏状态相关的投影函数,方法十分巧妙。



3与强化学习(RL)结合


对于之前第二个问题,即是说视频中并没有包含操作信号(键盘输入),不能直接拟合Action的问题,解决方法较为简单。虽然没有Action,但是有待模仿的状态序列,就可以使用一个简单的强化学习去探索出这些Action。具体来讲,Reward设置如下式:

φ函数表示投影函数,这个Reward设计的意思是,如果Agent在执行Action后得到的结果状态φ(agent),与模仿序列中的某个状态足够相似,则获得奖励。checkpoint是模仿序列的一个时间指针,表示当前到达模仿序列哪一个位置了。如果Agent的结果状态与序列第 (checkpoint + i)个位置的状态最相近,且相近程度大于阈值γ,那么就给与Agent奖励,并将新的checkpoint设置为 (checkpoint + i)。这样就结合强化学习实现了模仿学习。



4模型实验结果


为了更好地探索游戏环境,作者在模仿学习的奖励的基础上,也加入了游戏环境本身得分Reward,这样能得到更好的性能,实验结果如下表:

其中Rainbow[4],和ApeX[5]是非模仿学习的方法,DQfD[6]是一个带专家Action信息的模仿学习方法,公众号之前介绍的层次强化学习的方法也只能达到Average Human的水平。可以看到该模型的性能远远超过了之前的模型。


5总结


模仿学习近期出现了很多令人兴奋的结果,包括学习武术动作的DeepMimic[7],与Planning结合以完成复杂机械臂寻路的UPN[8],以及拓展为Conditional Imitation Learning来学习自动驾驶[9]等。


然而,模仿学习基础上的强化学习探索较为困难,迁移能力也相对较差[10]。模仿学习如何理解模仿内容的含义,而不再简单地鹦鹉学舌;抑或是如何在模仿学习基础上拓展,做到青出于蓝。这些都有待我们进一步探索。



参考文献


[1] Pieter Abbeel and Andrew Y Ng. Apprenticeship learning via inverse reinforcement learning. In Proceedings of the twenty-first international conference on Machine learning, page 1. ACM, 2004.

[2] Faraz Torabi, Garrett Warnell, and Peter Stone. Behavioral cloning from observation. arXiv preprint arXiv:1805.01954, 2018.

[3] Bradly C Stadie, Pieter Abbeel, and Ilya Sutskever. Third-person imitation learning. arXiv preprint arXiv:1703.01703, 2017.

[4] Matteo Hessel, Joseph Modayil, Hado Van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Dan Horgan, Bilal Piot, Mohammad Azar, and David Silver. Rainbow: Combining improvements in deep reinforcement learning. Proceedings of the AAAI Conference on Artificial Intelligence, 2017.

[5] Dan Horgan, John Quan, David Budden, Gabriel Barth-Maron, Matteo Hessel, Hado van Hasselt, and David Silver. Distributed prioritized experience replay. International Conference on Learning Representations (ICLR), 2018.

[6] Todd Hester, Matej Vecerik, Olivier Pietquin, Marc Lanctot, Tom Schaul, Bilal Piot, Dan Horgan, John Quan, Andrew Sendonaris, Gabriel Dulac-Arnold, et al. Deep q-learning from demonstrations. Proceedings of the AAAI Conference on Artificial Intelligence, 2017.

[7] Peng, Xue Bin, et al. "DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills." arXiv preprint arXiv:1804.02717 (2018).

[8] Srinivas, Aravind, et al. "Universal Planning Networks." arXiv preprint arXiv:1804.00645 (2018).

[9] Codevilla, Felipe, et al. "End-to-end driving via conditional imitation learning." arXiv preprint arXiv:1710.02410 (2017).

[10] Dosovitskiy, Alexey, et al. "CARLA: An open urban driving simulator." arXiv preprint arXiv:1711.03938 (2017).


关于CreateAMind

我们是骥智智能科技上海有限公司。我们致力于通用人工智能的无人驾驶研发,关注强化学习方法,视觉无监督语义级特征的生成模型技术,以及深度学习认知研究。
欢迎与我们一起学习,交流讨论!
↑长按图片识别二维码,关注我们




登录查看更多
6

相关内容

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,比如执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。当智能体学习人类行为时,虽然我们也需要使用模仿学习,但实时的行为模拟成本会非常高。与之相反,吴恩达提出的学徒学习(Apprenticeship learning)执行的是存粹的贪婪/利用(exploitative)策略,并使用强化学习方法遍历所有的(状态和行为)轨迹(trajectories)来学习近优化策略。它需要极难的计略(maneuvers),而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态,所以可为自动驾驶这样的许多任务提供更可靠的通用框架。

论文标题:CURL: Contrastive Unsupervised Representations for ReinforcementLearning(CURL:用于强化学习的对比无监督表示)

论文来源:ICML 2020 论文下载:https://www.zhuanzhi.ai/paper/6fb5994c1f98b326b45fb83ce319f0b9

代码链接:https://github.com/MishaLaskin/curl

摘要:

我们提出CURL:用于强化学习的对比无监督表示法。CURL使用表示学习从原始像素中提取高级特征,并在提取的特征上执行off-policy控制。在DeepMind控制套件和Atari游戏中,CURL在复杂任务中的表现优于之前基于像素的方法,无论是基于模型的还是无模型的,在100K环境和交互步骤的基准测试中,分别获得1.9倍和1.6倍的性能提升。在DeepMind控制套件中,CURL是第一个与使用基于状态特征的方法的采样效率和性能接近的基于图像的算法。

成为VIP会员查看完整内容
0
19

模仿学习是一种基于专家示教重建期望策略的方法,一直是AI领域的研究热点。为了提升模仿学习的通用性和在实际工程中的应用,相关的研究方向吸引了大量学术和工业界人士,其中利用多模态模仿学习提升模仿学习效果是重要的方向之一。例如,应用于自动驾驶中的驾驶行为学习,真实驾驶员示教数据由于驾驶技能和行为习惯的多样性呈现多种模态并服从不同的分布,如果直接利用行为克隆(Behavioral Cloning,BC)或逆向强化学习(Inverse Reinforcement Learning,IRL)容易导致模态坍塌问题(mode collapse problem),因缺乏发现和区分示教数据中的模态变化的能力。为了针对多模态示教数据进行有效的模仿,我们提出了一种基于生成对抗模仿学习(Generative Adversarial Imitation Learning,GAIL)的多模态模仿学习算法框架(图3),称为Triple-GAIL,通过对模态选择和行为模仿联合学习并利用模态选择器增量式生成数据促进模态区分优化模仿效果。Triple-GAIL在GAIL的基础上增加了一个模态选择器(Selector)用于区分多个模态,并和生成器(Generator)一起持续生成状态-动作-模态数据序列,达到数据增广的目的,而判别器(Discriminator)用于区分状态-动作-模态数据序列是否来自于专家示教数据。与已有多模态模仿学习方法相比,Triple-GAIL既可以直接通过指定模态生成行为轨迹,也可以直接利用模态选择器基于历史数据判断模态。

成为VIP会员查看完整内容
0
35

论文题目: A Divergence Minimization Perspective on Imitation Learning Methods

论文摘要: 在许多情况下,希望通过专家演示的学习或引导来学习决策和控制策略。这种模仿学习(IL)框架下最常见的方法是行为克隆(BC)和逆强化学习(IRL)。IRL的最新方法已经证明了可以通过访问非常有限的一组演示来学习有效策略的能力,一种情况BC方法经常失败。不幸的是,由于变化的多种因素,直接比较这些方法并不能提供足够的直觉来理解这种性能差异。在这项工作中,我们提出了基于散度最小化的IL算法的统一概率观点。我们提出了f-MAX,这是AIRL的一种泛化概括,它是一种最新的IRL方法。 f-MAX使我们能够关联以前的IRL方法,例如GAIL和AIRL,并了解它们的算法特性。通过散度最小化的镜头,我们可以找出BC和成功的IRL方法之间的差异,并在模拟的高维连续控制域上经验地评估这些细微差别。我们的发现最终确定了IRL的州际匹配目标是其卓越绩效的最大贡献。最后,我们将对IL方法的新理解应用于状态-边际匹配的问题,其中我们证明了在模拟推臂环境中,我们可以使用简单的手动指定状态分布来教给代理各种行为,而无需奖励函数或专家。

论文作者: Richard Zemel ,Vector人工智能研究所的联合创始人兼研究总监,多伦多大学机器学习工业研究主席,加拿大高级研究所高级研究员,研究兴趣包括:图像和文本的生成模型,基于图的机器学习,少量数据学习,词典,单词列表和公平性。

github链接: https://github.com/KamyarGh/rl_swiss/blob/master/reproducing/fmax_paper.md

成为VIP会员查看完整内容
0
16
小贴士
相关资讯
一文了解强化学习
AI100
12+阅读 · 2018年8月20日
论强化学习的根本缺陷
AI科技评论
7+阅读 · 2018年7月24日
【干货】强化学习介绍
人工智能学家
9+阅读 · 2018年6月24日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
9+阅读 · 2018年2月23日
相关论文
Aravind Srinivas,Michael Laskin,Pieter Abbeel
13+阅读 · 2020年4月28日
Q-value Path Decomposition for Deep Multiagent Reinforcement Learning
Yaodong Yang,Jianye Hao,Guangyong Chen,Hongyao Tang,Yingfeng Chen,Yujing Hu,Changjie Fan,Zhongyu Wei
19+阅读 · 2020年2月10日
Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning
Tom Zahavy,Matan Haroush,Nadav Merlis,Daniel J. Mankowitz,Shie Mannor
4+阅读 · 2018年9月6日
The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach
Iulian Vlad Serban,Chinnadhurai Sankar,Michael Pieper,Joelle Pineau,Yoshua Bengio
9+阅读 · 2018年7月12日
Relational Deep Reinforcement Learning
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
6+阅读 · 2018年6月28日
Ermo Wei,Drew Wicke,David Freelan,Sean Luke
10+阅读 · 2018年4月25日
Xin Wang,Wenhu Chen,Yuan-Fang Wang,William Yang Wang
7+阅读 · 2018年4月24日
Peter Shaw,Jakob Uszkoreit,Ashish Vaswani
27+阅读 · 2018年4月12日
Tabish Rashid,Mikayel Samvelyan,Christian Schroeder de Witt,Gregory Farquhar,Jakob Foerster,Shimon Whiteson
6+阅读 · 2018年3月30日
Matthias Plappert,Rein Houthooft,Prafulla Dhariwal,Szymon Sidor,Richard Y. Chen,Xi Chen,Tamim Asfour,Pieter Abbeel,Marcin Andrychowicz
3+阅读 · 2018年1月31日
Top
微信扫码咨询专知VIP会员