强化学习的自动驾驶控制技术研究进展

2021 年 2 月 17 日 专知

自动驾驶车辆的本质是轮式移动机器人，是一个集模式识别、环境感知、规划决策和智能控制等功能于一体的综合系统。人工智能和机器学习领域的进步极大推动了自动驾驶技术的发展。当前主流的机器学习方法分为：监督学习、非监督学习和强化学习3种。强化学习方法更适用于复杂交通场景下自动驾驶系统决策和控制的智能处理，有利于提高自动驾驶的舒适性和安全性。深度学习和强化学习相结合产生的深度强化学习方法成为机器学习领域中的热门研究方向。首先对自动驾驶技术、强化学习方法以及自动驾驶控制架构进行简要介绍，并阐述了强化学习方法的基本原理和研究现状。随后重点阐述了强化学习方法在自动驾驶控制领域的研究历史和现状，并结合北京联合大学智能车研究团队的研究和测试工作介绍了典型的基于强化学习的自动驾驶控制技术应用，讨论了深度强化学习的潜力。最后提出了强化学习方法在自动驾驶控制领域研究和应用时遇到的困难和挑战，包括真实环境下自动驾驶安全性、多智能体强化学习和符合人类驾驶特性的奖励函数设计等。研究有助于深入了解强化学习方法在自动驾驶控制方面的优势和局限性，在应用中也可作为自动驾驶控制系统的设计参考。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210103&flag=1

自动驾驶车辆是一个集环境感知、决策规划和智能控制等功能于一体的综合系统,是智能交通系统的重要组成部分,也是智能车辆领域研究的热点和汽车工业增长的新动力(徐友春等,2001)。自动驾驶汽车的控制技术是整个自动驾驶系统中的关键环节,也是国内外广大学者重点研究的领域。自动驾驶系统一般采用分层结构,其中控制层的功能是将来自决策和规划层的指令转化为各执行机构的动作,并控制各执行机构完成相应的动作,以此准确地跟踪路径并合理地控制速度。

自动驾驶车辆的控制可分为横向控制和纵向控制,传统的横/ 纵向控制的方法大多需要精确的数学解析模型,并对受控系统进行精确的数值求解。然而精度较高的模型一般也比较复杂,参数较多。复杂的模型也造成了较高的计算代价,使得求解困难, 往往难以保证实时性。随着互联网 + 、大数据和人工智能的迅速发展,研究人员开始基于机器学习方法开发智能汽车决策和控制算法,开辟了一条不同于汽车工程专家的研究思路。

机器学习主要研究计算机如何通过经验或探索环境来获取知识或优化自身技能,这是当前发展最快的一个技术领域。越来越多基于机器学习的方法被应用到自动驾驶系统中来。李德毅院士认为基于自学习的“驾驶脑”是中国智能车实现对国外弯道超车的关键所在(李德毅,2015)。2019 年,专业研发自动驾驶的公司 Waymo 收购了专门研究模仿学习在自动驾驶中应用的 Latent Logic 公司,这意味着 Waymo 将在机器学习在自动驾驶中的应用领域展开更加深入的研究和开发。目前,国内的各大 IT 厂商也纷纷开展与传统汽车厂家的合作,共同开发智能汽车。百度公司自 2014 年启动“百度自动驾驶汽车”研发计划以来,已经推出了Apollo 自动驾驶系统, 并于 2016 年取得了加州的自动驾驶牌照。百度还将自动驾驶汽车结合百度大脑,通过人工智能技术进一步推动自动驾驶汽车的进步。

机器学习的一个主要类型是强化学习( reinforcement learning,RL) (Kaelbling 等,1996;Bartlett, 2003;Konda 和 Tsitsiklis,2003;Sutton 和 Barto,1998; Sutton,1992;Lillicrap 等,2015;Mnih 等,2015;Silver等,2017)。与监督式学习主要应用于自动驾驶的感知层不同,强化学习更多应用在决策和控制层。传统控制器一般利用由固定参数组成的先验模型, 当机器人用于复杂环境(例如驾驶)时,传统控制器无法预见系统必须应对的所有可能情况,而学习型控制器会利用训练信息来逐步学习其模型(Ostafew 等,2016)。机器学习还可以和传统控制方法相结合,如学习模型预测控制( model predictive control, MPC)的代价函数,使人们更好地预测车辆的干扰和行为(Ostafew,2016)。由于自动驾驶控制问题具有高维度、状态和动作空间连续、非线性等特点,深度学习虽然具有较强的感知能力,然而却不擅长决策和控制。强化学习则可以通过不断探索环境来学习复杂的控制模型。因此,将两者相结合的深度强化学习(deep reinforcement learning, DRL)可以形成优势互补,为解决复杂系统的感知决策问题提供了新的思路。DRL 可以实现端到端( end-to-end)的感知与控制,具有很强的通用性。DRL 将深度学习的感知能力和强化学习的决策控制能力相结合,可以直接根据输入的像素级别的图像(或雷达数据) 进行控制,更接近人类的思维方式。深度学习和强化学习的结合使得自动驾驶控制问题得到了更多的解决方案。