Seq2seq强化学习实战 (Pytorch, Tensorflow, Theano)

2018 年 1 月 16 日 专知专知内容组（编）

【导读】本文是Kirti Bakshi在1月14日写的关于其强化学习课程的一个介绍，作者首先简单介绍了机器学习的缺点，以及为什么使用深度学习。然后讲述了其开设的课程的主要内容，包括：强化学习基础、实用的算法、实用案例等内容。文末给出了课程的GitHub链接、slide链接、指南地址，有兴趣的小伙伴可以下载仔细研究一下。

Practical_RL: Reinforcement learning for seq2seq (pytorch, tensorflow, theano)

在过去的几十年里，机器学习方法发展迅速。人们可以教算法怎么去理解，找到图像上的对象，翻译自然语言以及甚至生成文本和语音，甚至如果给出足够的标记数据，则可以在因特网上做信息检索（超过人类水平或与人类同水平）。前面唯一的缺点是，并不是每个问题都可以被认为是学习X - > y转换（拟合一些参考标签）。

▌关于本课程：

例如我们发现，在人们说话、学习、玩新的游戏、在城市环境中导航、设计登陆页面、骑自行车、甚至建立强化学习代理时，你不止是简单地教科书式地记住那些最优方案的例子。这些问题的共同之处在于，他们都可以通过反复实验的方法来解决：坚持让那些不好的方面影响较小。

更常见的是，这些问题可以在不同程度上被自动解决。所以在这里我们要做的就是在整个课程中训练机器使其可以进行创造性的解决方案。

MOOC的主要重点是对“机器”等life-size问题进行训练，称为强化学习（RL）算法。

▌菜单包括：

RL基础
实用算法
“黑客”工程
实例学习
新鲜好文章

内容包括各种各样的资料，从机器人和游戏到chatbots（聊天机器人），再到金融。该课程在HSE（俄语）校园内进行授课，一直保持对学生友好（包括英语和俄语）。

▌为了从这门课程中获益，需要了解什么？

本课程假定学习者已经掌握以下内容：

代数，微积分（向量，矩阵，基本积分）
概率（贝叶斯定理，期望，方差）
优化（梯度下降）
基本的机器学习（线性模型，决策树）
编码（python，numpy，sklearn）

还有一件事要知道，这门课程与深度学习的方法有着紧密的联系。没有严格的要求有神经网络的经验，因为课程将使用Theano和Lasagne进行速成课程，但是知道如何使用神经网络一定会派上用场的。

我们的目标是介绍给学生现代人工智能研究的一个突出领域：强化学习。 强化学习更多的是关于人类如何在现实中学习，与有监督学习和无监督学习有很大不同。

▌声明：

延伸阅读：对于没有被详细介绍的所有材料，都有更多的信息和相关材料的链接。

实用性第一：解决强化学习的一切问题都是值得一提的。本课程涵盖了技巧和启发。

Git-course：注意到一个公式中的拼写错误？使代码更可读？做了一个替代框架的版本？找到一个有用的链接？知道如何让课程更好？在这里可解决这些问题。

除了学习本课程之外，您还可以为此做出贡献：

提pull_request把好的资料放到./week*/README.md文件;
发现错误、创建问题并提交pul_request，如果能解决问题就更好了;
通过pull-requests将赋值转换为不同的框架和版本（tensorflow，pytorch，rllab，py2 / 3兼容性等）;
如果您碰巧知道答案，请在聊天室中回答问题并提出建议;

▌链接

有关更多信息：GitHub

https://github.com/yandexdataschool/Practical_RL

链接到演讲幻灯片：点击这里

https://yadi.sk/d/loPpY45J3EAYfU

在线学生生存指南：点击这里

https://github.com/yandexdataschool/Practical_RL/wiki/Online-student's-survival-guide

原文链接：https://www.techleer.com/articles/460-practical_rl-reinforcement-learning-for-seq2seq-pytorch-tensorflow-theano/

请关注专知公众号（扫一扫最下面专知二维码，或者点击上方蓝色专知），

后台回复“RLPP” 就可以获取 课程全部PPT下载链接~

▌第一次课PPT详细内容

-END-

专 · 知

人工智能领域主题知识资料查看获取：【专知荟萃】人工智能领域26个主题知识资料全集（入门/进阶/论文/综述/视频/专家等）

同时欢迎各位用户进行专知投稿，详情请点击：

【诚邀】专知诚挚邀请各位专业者加入AI创作者计划！了解使用专知！

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

请扫一扫如下二维码关注我们的公众号，获取人工智能的专业知识！

请加专知小助手微信（Rancho_Fang），加入专知主题人工智能群交流！

点击“阅读原文”，使用专知！

登录查看更多

相关内容

Theano

关注 4

Theano

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

专知会员服务

174+阅读 · 2020年6月6日

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

【干货书】机器学习Python实战教程，366页pdf

专知会员服务

344+阅读 · 2020年3月17日

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

专知会员服务

139+阅读 · 2020年3月1日

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

184+阅读 · 2020年1月17日

【斯坦福新课】CS234：强化学习，附课程PPT下载

专知会员服务

124+阅读 · 2020年1月15日

一网打尽！100+深度学习模型TensorFlow与Pytorch代码实现集合

专知会员服务

142+阅读 · 2020年1月3日

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

专知会员服务

147+阅读 · 2019年12月25日

从入门到精通-Tensorflow深度强化学习课程

深度学习与NLP

23+阅读 · 2019年3月7日

MIT 深度学习基础教程：七个基本框架TensorFlow代码实战

专知

8+阅读 · 2019年2月5日

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

从张量到自动微分：PyTorch入门教程

论智

9+阅读 · 2018年10月10日

OpenAI强化学习实战

炼数成金订阅号

9+阅读 · 2018年5月14日

强化学习的入门之旅

机器学习研究会

7+阅读 · 2018年2月12日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

【强化学习】强化学习入门以及代码实现

产业智能官

18+阅读 · 2017年9月4日

技术 | 强化学习入门以及代码实现

AI100

51+阅读 · 2017年8月26日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

A Comparative Study on Transformer vs RNN in Speech Applications

Arxiv

4+阅读 · 2019年9月13日

Playing Text-Adventure Games with Graph-Based Deep Reinforcement Learning

Arxiv

5+阅读 · 2019年3月25日

gym-gazebo2, a toolkit for reinforcement learning using ROS 2 and Gazebo

Arxiv

7+阅读 · 2019年3月14日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月6日

ANS: Adaptive Network Scaling for Deep Rectifier Reinforcement Learning Models

Arxiv

3+阅读 · 2018年9月6日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Seq2Seq2Sentiment: Multimodal Sequence to Sequence Models for Sentiment Analysis

Arxiv

5+阅读 · 2018年8月6日

Parameter Space Noise for Exploration

Arxiv

3+阅读 · 2018年1月31日

A Generative Model For Zero Shot Learning Using Conditional Variational Autoencoders

Arxiv

9+阅读 · 2018年1月27日

VIP会员