零基础搞懂强化学习?这份视频攻略不算迟

2018 年 4 月 25 日 雷锋网 雷锋字幕组

▲点击上方 雷锋网 关注

文 | 雷锋字幕组

来自雷锋网(leiphone-sz)的报道

雷锋网按:喜欢机器学习和人工智能,却发现埋头苦练枯燥乏味还杀时间?油管频道 Arxiv Insights 每周精选,从技术视角出发,带你轻松深度学习。

翻译 | 郑前   字幕 |  凡江   整理 |  吴璇

本期 Arxiv Insights 将重点介绍机器学习中的子领域“强化学习”,也是机器人最具智能前景的方向之一。


▷ 强化学习解读视频



有监督学习 VS 强化学习


在常见的机器学习应用中,人们会运用有监督学习,也就是给神经网络模型一个输入,但模型输出结果已成定局。因此你可以利用反向传播算法计算梯度,以训练此网络产生结果。

在监督学习的情况下,如果要训练一个会玩吃鸡的神经网络,你需要找一个吃鸡高手玩好几个小时,然后获得一个数据集,包括了所有的帧。比如玩家看到的屏幕,以及他在游戏中的键盘操作(如,向上或向下)。随后将这些数据输入到一个非常简单的神经网络中,便可以输出向上或向下的行为。利用反向传播这类算法对人类玩家数据集进行训练,可以训练出模拟人类玩家操作的神经网络。

但这种方法有两种明显的缺陷。第一,如果你想进行监督学习,就必须有一个数据集来训练,但训练数据集本身就不容易了。另一方面,如果你训练的神经网络模型,仅仅是模仿人类玩家的操作,那么这个模型在玩游戏时,成绩肯定不会比人类选手高。



强化学习让智能体更聪明


想训练一个AlphaGo Zero,能够击败世界顶级选手?从理论上,不能运用监督学习。那么,有什么方法可以让智能体主动来玩游戏?这时候强化学习就有用了。

实际上,强化学习的框架与监督学习框架非常相似,仍旧有输入帧,并通过神经网络模型运行模型,输出各种人类操作。唯一的区别是,我们不知道目标标签是什么,不知道在什么情况下,要进行向上或向下的键盘操作,因为这里没有数据集去训练。

在强化学习中,将输入帧转换为输出动作的网络,被称为策略网络。一个最简单的训练策略网络的方法,被称为策略梯度。策略梯度中的方法是,从一个完全随机的网络开始,并向其提供游戏产生的一个帧,它随机产生操作,然后再将该动作输入到游戏中,游戏继续产生下一帧,如此循环下去。



用强化学习教智能体玩游戏


这个例子中的网络,可以是一个全连接网络,但可以在这里运用卷积,现在你的网络会输出两个数字向上和向下的概率。当你训练时,其实是在分布中抽样,你不需要总是重复特定的操作,智能体可以一定程度上随机地探索环境,并幸运地发现更高的回报和更好的行为。

现在我们想让智能体自主学习唯一的反馈是,我们在游戏中给它一个记分牌,当智能体击中目标时,它会获得+1的回报,如果未击中目标,它会收到-1的惩罚。智能体的目标就是优化策略,以尽可能多的获取回报。因此为了训练策略网络,我们首先要收集大量记录,然后将游戏的帧输入到网络中,再随机选取动作,重新反馈到游戏中,就产生了很多随机的游戏操作。

由于智能体没有经过训练学习,它在大多数时候都会失败,但是有时候智能体随机选取了一系列行为,并击中了目标,智能体将会获得奖励。重点是对于每一局游戏,无论想要正奖励还是负奖励,我们都可以计算梯度,它使智能机在后续更多的选择某些动作。

策略梯度要做的就是对于得到正回报的局,我们使用正的梯度,以增加该类操作未来发生的可能性,但当我们得到了负的回报,就会使用相同数值的负梯度,负号会使失败局采取的所有操作在未来发生的可能性下降。结果就是,在训练策略网络时导致负回报的行为,在未来会逐渐过滤掉,而导致正回报的行为会越来越多的出现。从某种意义上说,这就是智能体正在学习如何玩游戏的过程。

相关资料推荐:

- "Pong from Pixels - Karpathy": http://karpathy.github.io/2016/05/31/rl/

- Concept networks for grasp & stack (Paper with heavy reward shaping): https://arxiv.org/abs/1709.06977  

- END -

雷锋网招AI业界记者、IOT记者若干

岗位职责:

跟进AI业界/IOT领域的正常报道、采访报道;

独立策划相关选题,撰写行业分析文章。


要求:

科技媒体1-3年从业经验优先;

对AI业界/IOT领域有浓厚的兴趣;

逻辑思维佳;文字水平佳;英文水平佳。


简历请投至:

lizongren@leiphone.com (深圳);liufangping@leiphone.com(北京)

其他岗位点击招聘启事

关注雷锋网(leiphone-sz)回复 2 加读者群交个朋友

登录查看更多
2

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
Yoshua Bengio最新《深度学习》MLSS2020教程,附104页PPT及视频
专知会员服务
126+阅读 · 2020年7月10日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
177+阅读 · 2020年5月29日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
114+阅读 · 2020年1月15日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
26+阅读 · 2018年8月17日
【干货】强化学习介绍
专知
11+阅读 · 2018年6月24日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】易忽略的强化学习知识之基础知识及MDP
产业智能官
17+阅读 · 2017年12月22日
一张图看懂AlphaGo Zero
AI前线
5+阅读 · 2017年11月17日
深度强化学习小白入门攻略篇
StuQ
5+阅读 · 2017年9月7日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
3+阅读 · 2018年10月8日
VIP会员
相关资讯
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
26+阅读 · 2018年8月17日
【干货】强化学习介绍
专知
11+阅读 · 2018年6月24日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】易忽略的强化学习知识之基础知识及MDP
产业智能官
17+阅读 · 2017年12月22日
一张图看懂AlphaGo Zero
AI前线
5+阅读 · 2017年11月17日
深度强化学习小白入门攻略篇
StuQ
5+阅读 · 2017年9月7日
相关论文
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
3+阅读 · 2018年10月8日
Top
微信扫码咨询专知VIP会员