【CMU博士论文】机器人深度强化学习,128页pdf

2020 年 8 月 27 日 专知


机器人研究的一个长期目标是创建能够从零开始自动学习复杂控制策略的算法。将这种算法应用到机器人上的挑战之一是表示的选择。强化学习(RL)算法已经成功地应用于许多不同的机器人任务中,如带有机器人手臂的cup中的Ball-in-a-Cup任务和各种机器人世界杯机器人足球启发的领域。然而,RL算法仍然存在训练时间长、所需训练数据量大的问题。为状态空间、行动空间和策略选择合适的表示可以大大减少所需的训练时间和所需的训练数据。


本文主要研究机器人的深度强化学习。具体来说,状态空间、动作空间和策略表示的选择如何减少机器人学习任务的训练时间和样本复杂度。特别集中注意两个主要领域:


1)通过张量状态-动作空间表示

2)多状态表示的辅助任务学习


第一个领域探索了在环境变化中改进机器人策略迁移的方法。学习策略的成本可能很高,但是如果策略可以在类似的环境中传输和重用,那么训练成本可以平摊。迁移学习是一个被广泛研究的领域,涉及多种技术。在这篇论文中,我们着重设计一个易于传输的表示。我们的方法将状态空间和动作空间映射为多维张量,设计成当环境中机器人和其他对象的数量变化时保持固定维数。我们还提出了全卷积Q-Network (FCQN)策略表示,这是一种特殊的网络架构,与张量表示相结合,允许跨环境大小进行零距离传输。我们在模拟的单代理和多代理任务上演示了这种方法,灵感来自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我们还表明,在真实世界的传感器数据和机器人中使用这样的表示和模拟训练策略是可能的。


第二个领域考察了一个机器人深度RL状态表示的优势如何弥补另一个机器人深度RL状态表示的劣势。例如,我们经常想要利用机器人可用的传感器来学习任务,其中包括像摄像机这样的高维传感器。最近的Deep RL算法可以通过图像进行学习,但是数据的数量对于真实的机器人来说是难以接受的。或者,可以使用任务完成所需的最小集创建状态。这样做的好处是:1)减少策略参数的数量,2)删除不相关的信息。然而,提取这些特征通常会在工程、额外硬件、校准和实验室之外的脆弱性方面有很大的成本。我们在仿真和现实世界的多个机器人平台和任务上演示了这一点。我们证明它在模拟的RoboCup小型联赛(SSL)机器人上工作。我们还演示了这样的技术允许在真实的硬件上从零开始学习,通过机器人手臂执行一个球在一个杯子的任务。


https://www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“RDRL” 就可以获取【CMU博士论文】机器人深度强化学习,128页pdf》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资料
登录查看更多
0

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
专知会员服务
198+阅读 · 2019年8月30日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
层级强化学习概念简介
CreateAMind
15+阅读 · 2019年6月9日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
26+阅读 · 2018年8月17日
Arxiv
0+阅读 · 2020年10月13日
Arxiv
0+阅读 · 2020年10月12日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
VIP会员
相关VIP内容
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
专知会员服务
198+阅读 · 2019年8月30日
Top
微信扫码咨询专知VIP会员