OpenAI-2018年强化学习领域7大最新研究方向全盘点

2018 年 2 月 3 日 深度学习与NLP lqfarmer

OpenAI一直是业界进行强化学习研究与应用的前沿阵地，2018年伊始，今天就给大家盘点一下新的AI纪元之年，OpenAI火力全开，重点研究的七个问题。

⭐⭐⭐ 分布式深度强化学习中参数平均问题（Parameter Averaging）

在RL算法中探索参数平均方案对样本复杂度和通信开销带来的影响。虽然最简单的解决方案是在每次更新时，直接平均来自每个Worker的梯度，但也可以让每个Worker独立更新参数，达到一定更新次数后再提交更新，减少参数平均带来的来通信开销。在RL中，这可能还有另一个好处：在任何时候，都会有Agent具有不同参数，这可能会带来更好的探索行为。另一种可能性是像EASGD这样的使用算法，每个更新都将参数部分地结合在一起。

⭐⭐⭐ 通过生成模型，在不同的GAMES之间进行迁移问题

· 为11个Atari游戏，训练11个好的Policy。从每个游戏的Policy中产生10,000个1000步的轨迹数据。

· 使用一个生成模型（如Transformer）去逼近其中10个游戏产生的轨迹数据。

· 然后在第11个游戏的轨迹数据中微调这个模型。

· 目标是量化前10场GAME数据的训练前的帮助有多大。该模型需要多大的预训练才能起到Positive（帮助训练）的作用？当第11场游戏的数据量减少10倍时，效果的大小如何变化？减少100倍又如何？

⭐⭐ 贪吃蛇项目Slitherin问题

基于Gym环境，实现和解决经典的贪食蛇游戏的多游戏者问题（详见slither.io）。

· 环境：有一个相当大的环境与多个蛇；水果随机出现，且蛇吃水果之后会成长；一条蛇在与另一条蛇，或蛇本身或墙壁相撞时死亡；当所有的蛇死亡，游戏结束。从两条蛇开始，并基于此不断扩展。

· Agent：基于用户选择，RL算法通过self_learning,自动基于环境来解决问题。需要尝试各种方法来克服self_learning的不稳定性（类似于GAN学习中出现的不稳定）。例如，尝试基于过去的策略（policy）分配来学习当前的策略。哪种方法效果最好？

· 检查学到的行为：Agent是否学会追逐食物，避免其他蛇碰撞？Agent是否学会进攻，设陷阱，或与竞争的蛇相抗衡？等等问题。

⭐⭐⭐ 基于Linear Attention 的Transfomer模型问题

“Transfomer”模型中使用了基于softmax的Soft Attention机制。如果可以使用Linear Attention（可以转换成使用Fast Weight的RNN），我们就可以得到模型用于RL中。具体而言，在复杂的Context的RL学习环境下，直接把Transfomer应用于RL是不切实际的，但是基于Fast Weight的RNN是可行的。

我们的目标是：对于任何语言建模（Language Modeling）任务;只需要训练一个Transfomer模型，然后然后找到一种方法，使用具有不同超参数Liner-Attention Transfomer模型来获得每个字符/字的相同位（Bits），而不用增加过多的参数。但有一点需要注意：这个方法也可以行不通。一个重要的提示：与使用softmax的注意力相比，Liner-Attention Transfomer可能需要高维度的key/value向量，这可以在不显着增加参数数量的情况下完成。

⭐⭐⭐ 学习数据增强（Learned Data Augmentation）问题

可以使用基于数据学习得到的VAE数据来进行“学习数据增强”。首先要对输入数据进行VAE训练，然后将每个训练样本通过编码映射到latent space，然后在latent space中添加一个简单的（如高斯）扰动，然后解码回观测空间。问题是，我们可以用这种方法来提升泛化效果吗？这种数据增强的潜在好处是它可以包括引入许多非线性变换，如视点变化和场景闪电的变化。我们能否近似标签不变的转换集呢？

⭐⭐⭐⭐ 强化学习（RL）中的正规化（Regularization）问题

实验研究（和定性解释）不同正则化方法对选择的RL算法的有很大的影响。如，在有监督的深度学习中，正则化对于改进优化和防止过拟合非常重要，其中非常成功的方法如Dropout，Batch Normalization和L2正则化。但是，人们还没有从强化学习算法（如策略梯度和Q学习）的正则化中受益。顺便提一句，人们通常在RL中使用的模型要比监督式学习中使用的模型结构要的小得多，因为大型模型的效果表现更差 - 也许是因为小模型更适用于最近的研究场景。这是一个相关的，但更久远的理论研究。

⭐⭐⭐⭐⭐ 自动求Olympiad Inequality Problems问题

Olympiad Inequality Problems很容易表达，但解决这些问题通常需要巧妙的操作。构建Olympiad Inequality Problems的数据集，编写能解决其中很大一部分问题的程序。目前尚不清楚机器学习在这里是否有用，但可以使用一个学习的策略来减少一些分支因素。

是否还在因为论文写作排版问题纠结呢？给大家推荐一套万门大学的LaTex精准入门教程。限时免费，名额有限，先到先得哦。

登录查看更多

相关内容

OpenAI

关注 27

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔（Peter Thiel）以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

专知会员服务

45+阅读 · 2020年5月15日

元学习(meta learning) 最新进展综述论文

专知会员服务

281+阅读 · 2020年5月8日

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日