【ETHZ博士论文】强化学习在四足机器人运动规划与控制中的应用

数十年来，机器人在我们的日常生活中扮演了重要而隐秘的角色。我们每天依赖的许多产品，如汽车和药品，都是通过机器人自动化生产的。这些系统将以更直接的方式进入我们的日常生活，他们的影响力不可避免地会减小。特别是腿部机器人，近期的进步终于使这些系统商业上可行，并将很快看到它们在物流、景观工作和在建筑工地上协助工人的角色。然而，随着它们的持续改进，操作它们的软件和算法将需要能够执行目前无法实现的更抽象的任务。毫无疑问，实现这一目标的方式之一将涉及利用机器学习技术的并发进步。

https://www.research-collection.ethz.ch/handle/20.500.11850/614549

这篇博士论文正朝着这个目标努力，旨在帮助弥合现代机器人技术和机器学习技术之间的鸿沟。这项研究解决了实现更强大机器人系统所必需的两个方面，即软件和算法，并专注于深度强化学习（DRL）技术在解决腿部机器人，特别是四足机器人系统的运动控制问题的应用。为了统一上述领域，我们需要软件系统能够利用在Python中实现的DRL算法，并让需要C++接口的研究人员和开发人员可以使用。因此，这项工作通过引入一个多功能的软件工具箱，为机器人应用使用DRL算法做出了贡献。它利用了最先进的机器学习平台TensorFlow的Python API，用于构建包含神经网络模型、梯度计算和随机梯度下降优化器等组件的计算图。这些图可以在C++运行时环境中使用，以执行如训练和部署等图操作。此外，该工具箱在上述核心元素的基础上，提供了对DRL的有用抽象，实现了几种最先进的算法以及其他有用的实用工具。有了这个工具箱，我们提供了一个端到端的解决方案，用于设计、建模、训练和部署神经网络策略，这种策略专门为四足机器人ANYmal设计和测试。此外，复杂地形的行动对于有腿的机器人来说构成了重大挑战。为了让像ANYmal这样的系统能够在这样的环境中自主运行，它们必须拥有谨慎规划适合地形的立足点的方法，同时执行保证稳定性的运动。为了解决这个问题，本博士论文通过提出一种解决四足系统穿越非结构化地形的立足点选择和步态生成问题的新方法，对算法的第二个方面做出了贡献。这项工作主要围绕一个框架进行，该框架用于制定马尔科夫决策过程(MDPs)，采用最新的基于模型的轨迹优化技术来评估动态可行性，取代了物理模拟。当与最先进的DRL算法一起使用时，这些MDPs会生成能够在具有挑战性的3D环境中规划基础姿势、立足点位置和步态参数序列的地形感知神经网络策略。这些所谓的步态规划(GP)网络，在与其他针对运动规划和控制问题的最先进方法结合时，会产生有效的行动。这种方法已经在模拟中以及在ANYmal的物理平台上得到了实验验证。

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【剑桥大学博士论文】主动学习与序列决策研究进展，160页pdf

专知会员服务

77+阅读 · 2023年2月13日

【CMU博士论文】解决现代强化学习中的挑战: 长规划时界，大状态空间，175页pdf

专知会员服务

54+阅读 · 2023年1月4日

【伯克利博士论文】机器学习安全性，172页pdf

专知会员服务

37+阅读 · 2022年12月6日

《多智能体任务规划》2022博士论文

专知会员服务

279+阅读 · 2022年11月20日