数十年来,机器人在我们的日常生活中扮演了重要而隐秘的角色。我们每天依赖的许多产品,如汽车和药品,都是通过机器人自动化生产的。这些系统将以更直接的方式进入我们的日常生活,他们的影响力不可避免地会减小。特别是腿部机器人,近期的进步终于使这些系统商业上可行,并将很快看到它们在物流、景观工作和在建筑工地上协助工人的角色。然而,随着它们的持续改进,操作它们的软件和算法将需要能够执行目前无法实现的更抽象的任务。毫无疑问,实现这一目标的方式之一将涉及利用机器学习技术的并发进步。
https://www.research-collection.ethz.ch/handle/20.500.11850/614549
这篇博士论文正朝着这个目标努力,旨在帮助弥合现代机器人技术和机器学习技术之间的鸿沟。这项研究解决了实现更强大机器人系统所必需的两个方面,即软件和算法,并专注于深度强化学习(DRL)技术在解决腿部机器人,特别是四足机器人系统的运动控制问题的应用。为了统一上述领域,我们需要软件系统能够利用在Python中实现的DRL算法,并让需要C++接口的研究人员和开发人员可以使用。因此,这项工作通过引入一个多功能的软件工具箱,为机器人应用使用DRL算法做出了贡献。它利用了最先进的机器学习平台TensorFlow的Python API,用于构建包含神经网络模型、梯度计算和随机梯度下降优化器等组件的计算图。这些图可以在C++运行时环境中使用,以执行如训练和部署等图操作。此外,该工具箱在上述核心元素的基础上,提供了对DRL的有用抽象,实现了几种最先进的算法以及其他有用的实用工具。有了这个工具箱,我们提供了一个端到端的解决方案,用于设计、建模、训练和部署神经网络策略,这种策略专门为四足机器人ANYmal设计和测试。此外,复杂地形的行动对于有腿的机器人来说构成了重大挑战。为了让像ANYmal这样的系统能够在这样的环境中自主运行,它们必须拥有谨慎规划适合地形的立足点的方法,同时执行保证稳定性的运动。为了解决这个问题,本博士论文通过提出一种解决四足系统穿越非结构化地形的立足点选择和步态生成问题的新方法,对算法的第二个方面做出了贡献。这项工作主要围绕一个框架进行,该框架用于制定马尔科夫决策过程(MDPs),采用最新的基于模型的轨迹优化技术来评估动态可行性,取代了物理模拟。当与最先进的DRL算法一起使用时,这些MDPs会生成能够在具有挑战性的3D环境中规划基础姿势、立足点位置和步态参数序列的地形感知神经网络策略。这些所谓的步态规划(GP)网络,在与其他针对运动规划和控制问题的最先进方法结合时,会产生有效的行动。这种方法已经在模拟中以及在ANYmal的物理平台上得到了实验验证。