【CMU博士论文】机器人深度强化学习，128页pdf

2020 年 8 月 27 日 专知

机器人研究的一个长期目标是创建能够从零开始自动学习复杂控制策略的算法。将这种算法应用到机器人上的挑战之一是表示的选择。强化学习(RL)算法已经成功地应用于许多不同的机器人任务中，如带有机器人手臂的cup中的Ball-in-a-Cup任务和各种机器人世界杯机器人足球启发的领域。然而，RL算法仍然存在训练时间长、所需训练数据量大的问题。为状态空间、行动空间和策略选择合适的表示可以大大减少所需的训练时间和所需的训练数据。

本文主要研究机器人的深度强化学习。具体来说，状态空间、动作空间和策略表示的选择如何减少机器人学习任务的训练时间和样本复杂度。特别集中注意两个主要领域:

1)通过张量状态-动作空间表示

2)多状态表示的辅助任务学习

第一个领域探索了在环境变化中改进机器人策略迁移的方法。学习策略的成本可能很高，但是如果策略可以在类似的环境中传输和重用，那么训练成本可以平摊。迁移学习是一个被广泛研究的领域，涉及多种技术。在这篇论文中，我们着重设计一个易于传输的表示。我们的方法将状态空间和动作空间映射为多维张量，设计成当环境中机器人和其他对象的数量变化时保持固定维数。我们还提出了全卷积Q-Network (FCQN)策略表示，这是一种特殊的网络架构，与张量表示相结合，允许跨环境大小进行零距离传输。我们在模拟的单代理和多代理任务上演示了这种方法，灵感来自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我们还表明，在真实世界的传感器数据和机器人中使用这样的表示和模拟训练策略是可能的。

第二个领域考察了一个机器人深度RL状态表示的优势如何弥补另一个机器人深度RL状态表示的劣势。例如，我们经常想要利用机器人可用的传感器来学习任务，其中包括像摄像机这样的高维传感器。最近的Deep RL算法可以通过图像进行学习，但是数据的数量对于真实的机器人来说是难以接受的。或者，可以使用任务完成所需的最小集创建状态。这样做的好处是:1)减少策略参数的数量，2)删除不相关的信息。然而，提取这些特征通常会在工程、额外硬件、校准和实验室之外的脆弱性方面有很大的成本。我们在仿真和现实世界的多个机器人平台和任务上演示了这一点。我们证明它在模拟的RoboCup小型联赛(SSL)机器人上工作。我们还演示了这样的技术允许在真实的硬件上从零开始学习，通过机器人手臂执行一个球在一个杯子的任务。

https://www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/