本文为固定翼无人机实现了一套基于深度强化学习的飞行控制系统。与传统飞行控制方法不同,深度强化学习无需精确的数学系统模型即可进行设计,并能处理高敏捷性航空航天飞行器(如小型无人机)的非线性耦合动力学问题。研究选用深度确定性策略梯度方法以适应连续动作空间环境。本研究的核心贡献在于实现了三种独特方法,成功以基于强化学习的控制器取代传统经典控制系统,每种方法均提供独特优势,并在可解释性、复杂性与性能之间探索不同权衡点——这些因素对安全关键型航空航天应用至关重要。研究首先建立了由高度控制器与俯仰角控制器组成的经典比例-积分-微分飞行控制架构作为基准。随后探究了三种方案:首先,将高度保持控制器替换为强化学习智能体,同时保留比例-积分-微分控制进行俯仰控制;第二种方案则同时将高度与俯仰控制回路替换为强化学习智能体;最终采用单一强化学习智能体同时替代高度与俯仰角控制回路,实现统一控制。研究通过与广泛使用的传统比例-积分-微分控制进行对比分析,评估了各控制系统的有效性。强化学习控制器性能超越基准比例-积分-微分控制器,其中统一强化学习控制器实现了0.58米的稳态误差与5秒的瞬态响应时间,而比例-积分-微分控制器稳态误差为1.11米、瞬态响应时间为16秒,从而将误差降低48%并提升响应速度近69%。这些结果证明了所提出基于强化学习的控制策略具有卓越精度与响应效率。值得注意的是,采用单一强化学习智能体的方案展现出显著效果,凸显了强化学习智能体处理复杂控制挑战的能力。该方法通过消除多回路架构需求简化了控制系统设计。本研究结果强调了基于强化学习的控制器提升无人机性能的潜力,同时为未来无人机控制系统开发提供了宝贵见解,凸显出强化学习技术相较于传统比例-积分-微分控制的优势。
图:无人机高度保持控制系统的架构演进凸显人工智能集成对性能提升的作用
无人机的快速成长与多尺度发展已在控制学界引发巨大关注。随着无人机应用范围持续扩展与用途日益多元化[1],迫切需要敏捷、简洁且鲁棒的算法以有效控制这些航空系统。该需求源于无人机跨领域应用带来的复杂多样挑战,例如目标追踪[2]或侦察机等军事用途,地震与森林火灾中的灾害援助[3],以及农业[4]、包裹递送、测绘、摄影等商业任务。无人机关键组件之一是自主飞行控制系统[5],其保障无人机稳定飞行并对任务成功至关重要。
无人机自动驾驶仪多采用比例-积分-微分控制系统与自适应控制方法(如Wang等人[6]所示),这些方法在稳定环境中表现良好[7]。由于环境变化、建模不确定性与传感器误差波动,无人机动力学十分复杂,需要自适应控制技术进行有效管理[8]。增益调度结合比例-积分-微分控制是常见方法,其根据运行条件调整控制器增益[9][10]。但该方法仅限于预定义条件,在需要持续调整的动态环境中面临挑战。传统比例-积分-微分控制与自适应技术(如[11])需精确数学建模[12],但随着控制面/执行器数量增加,该任务变得极其复杂耗时。此外,如Jiang与Kamel[13]所示,针对特定条件确定的数学模型需经过大量研究才能适应新情境。需要设计新一代智能飞行控制系统的新方法,包括对可变动态环境的适应性。无人机飞行控制器应具备容错能力[14],适应有效载荷与风况变化(如[15]所述),并优化飞行轨迹[16],这迫切要求更好的控制方案。此类挑战并非控制系统独有,无人机通信框架中同样存在对环境变化下适应性与实时响应能力的类似需求,其必须在动态拓扑与任务约束下保持网络性能[17][18][19]。
尽管近期有Chen等人[20]采用传统方法将人力介入纳入无人机控制,人工智能已被证明是提升航空航天飞行器自主性的有效工具。从提供传感器模型(如Lerro与Pasquale[21]利用神经网络开发的无模型估计攻角估算技术),到Hamidi等人[22]使用基于神经网络的比例-积分-微分控制器完整控制无人机并在四旋翼飞行器抗扰方面取得优异成果,人工智能与深度学习极大推动了传统技术发展。部分研究中,比例-积分-微分控制器增益也通过人工智能技术优化,如Li等人在[23]中调谐模糊比例-微分与比例-积分控制器。Jiang等人[24]通过实现西格玛-派神经网络处理动态逆问题,误差显著低于传统动态逆技术。借助人工智能,无人机可无需人工干预增强态势感知并实现完全自主[25]。
强化学习作为机器学习分支,已成为无人机控制热门工具[26]。强化学习智能体目标是通过在模拟环境中学习最优行动以最大化奖励[27]。强化学习无需任何初始训练数据;智能体在环境中执行行动,环境根据行动给予奖励[28]。这使得强化学习成为学习新颖复杂控制方法的理想选择。有益学习的良好行动将获得正奖励,不良行动则给予负奖励作为惩罚。由此学习最优策略并提升性能。智能体每步后持续更新优化策略直至获得最优解。智能体经训练在探索与利用间寻求平衡[29]。环境包含训练智能体的不同属性与约束。根据训练应用场景,智能体可为飞行器或游戏玩家[27]。
基于强化学习的无人机控制已有大量研究。例如Bohn等人提出使用近端策略优化算法的固定翼无人机强化学习非线性姿态控制器,增强多条件下稳定性[30]。Bøhn等人[31]进一步扩展该工作,引入自适应域随机化方法,实现稳健的从仿真到真实环境迁移并提升未知风场中的策略泛化能力。Xie等人[32]提出倾转旋翼无人机姿态控制。Kroezen在[33]中应用执行者-评论者网络有效控制俯仰与滚转率。Rennie在[34]中展示基于强化学习的航向与高度控制器,体现跨机型适应性。Xu等人提出混合飞行器的无模型混合制导与控制架构(将强化学习应用于垂直起降混合无人机,而非固定翼比例-积分-微分-强化学习控制),成功在多控制面场景应用强化学习[35]。Zahmatkesh等人使用Q学习进行飞行器纵向控制,性能超越比例-积分-微分控制[36]。深度确定性策略梯度方法的连续动作空间(一类强化学习算法)在学习控制律方面展现巨大优势,如Ramos等人[37]成功应用该算法解决移动平台着陆机动问题。类似地,Tang与Lai使用深度确定性策略梯度智能体引导固定下滑角无人机成功着陆[38]。近期Choi等人[39]研究基于强化学习的无人机控制器中的模块化策略迁移,强调跨变化飞行器参数的适应性。本研究选用深度确定性策略梯度算法,因其结合执行者-评论者架构与确定性策略梯度优势,非常适合固定翼无人机控制中的连续动作空间。此外,Ryazev等人[40][41]研究表明,深度确定性策略梯度在特定场景下相比其他算法(如柔性演员-评论者与双延迟深度确定性策略梯度)具有更快收敛速度,使其成为我们实现的实用选择。He等人[41]进一步证实,基于深度确定性策略梯度的自适应控制器在固定翼轨迹跟踪任务中收敛时间与跟踪精度优于近端策略优化与柔性演员-评论者。强化学习在无人机制导与控制中的成功使其应用于复杂无人机编队飞行,如[42]与[43]的工作及[44]使用的混合技术。Li等人在[23]中提出水下无人机跟踪控制。强化学习还能降低能耗,如Aiello等人[45]深入研究创新强化学习控制与导航技术以减少固定翼无人机飞行能耗。
四旋翼无人机相关研究广泛,但固定翼无人机领域尽管存在这些进展,仍需进一步研究以确立基于强化学习的飞行控制器为标准。本研究展示将强化学习算法应用于固定翼无人机飞行控制系统的三种新颖方法。
强化学习-比例-积分-微分混合控制框架。该策略通过级联比例-积分-微分与强化学习控制器结合,为实际飞行场景提供实用起点。通过保留回路内经典控制系统,引入安全因素,解决基于人工智能控制器常缺乏数学透明性的问题。该混合方法确保一定置信度与可靠性,促使安全关键应用更平稳过渡至全面采用强化学习控制器。
集成强化学习飞行控制层级。该框架展示不依赖传统控制的强化学习全面应用,从而消除数学模型需求同时保留经典控制架构。其代表了通向更高自主系统的路径,并将经实际飞行试验获得足够置信度后最适合全面实施。
统一强化学习控制系统。该方法通过单一强化学习智能体替代所有内外回路,凸显强化学习相对传统控制的能力与优越性。最终控制架构不仅简化,且仅需训练单一智能体而非多个智能体,提升效率与可扩展性。
尽管先前工作如Richter等人[46]提供强化学习在固定翼飞行器控制中应用的全面回顾,但主要综述算法趋势与广泛用例,未提出原始实现或比较控制架构策略。类似地,Zhang等人[47]提出基于深度强化学习的路径跟踪控制器,但聚焦轨迹追踪而非完整飞行控制层级或控制架构设计。相比之下,本研究引入并评估三种不同基于强化学习的控制框架——混合型、集成型与统一型——专门针对风扰下的高度控制。通过使用通用深度强化学习骨干系统比较这些架构,我们的工作提供其性能、鲁棒性与实施可行性的实用见解,此为现有文献所缺乏。
据作者所知,这些方法此前未见文献讨论。所提出框架不仅展示强化学习与传统比例-积分-微分控制系统整合的潜力,为强化学习实际应用奠定基础,且在最终框架中凸显强化学习通过消除层级控制回路需求以简化控制架构的能力。表1给出基于深度强化学习的无人机控制相关工作的对比摘要。
表1 基于深度强化学习的无人机控制相关工作对比摘要
参考文献 | 无人机类型 | 控制方法 | 深度强化学习算法 | 环境 | 贡献 | 局限/与本研究的区别 |
---|---|---|---|---|---|---|
Bøhn等人 (2019, 2024) [30], [31] | 固定翼 | 姿态控制及仿真到实物的迁移 | 近端策略优化 | 仿真+实物 | 基于深度强化学习的姿态控制(2019);领域随机化实现策略泛化(2024) | 未涉及全回路或分层控制器;未进行架构基准测试 |
Tang等人 (2020) [38] | 固定翼 | 引导着陆控制 | 深度确定性策略梯度 | 仿真 | 采用深度确定性策略梯度实现下滑着陆 | 仅涉及末端导引;未进行比例-积分-微分基准测试或多层架构研究 |
Xu等人 (2019) [35] | 混合无人机 | 无模型混合制导与控制 | 近端策略优化 | 仿真 | 为混合无人机实现基于强化学习的多控制面操控 | 缺乏模块化层级结构或混合比例-积分-微分-强化学习方案(如强化学习-比例-积分-微分混合控制框架所用) |
Cheng等人 (2023) [39] | 固定翼 | 模块化基于强化学习的控制器 | 柔性演员-评论者 | 仿真 | 实现跨不同飞行器参数的策略迁移 | 未针对比例-积分-微分测试控制架构基准或验证高度保持性能 |
He等人 (2024) [41] | 固定翼 | 自适应轨迹跟踪 | 深度确定性策略梯度、近端策略优化、柔性演员-评论者 | 仿真 | 证明深度确定性策略梯度比近端策略优化和柔性演员-评论者收敛更快、精度更高 | 未探索多控制器架构或高度保持功能 |
Zhang等人 (2021) [47] | 固定翼 | 路径跟踪 | 深度强化学习 | 仿真 | 实现了基于深度强化学习的路径跟踪控制器 | 重点在于轨迹跟踪,而非架构比较或高度性能评估 |
Richter等人 (2024) [46] | 固定翼 | 强化学习方法的综述/回顾 | 多种算法 | 综述论文 | 对飞行器控制任务中的强化学习应用进行了全面回顾 | 未提供原始实现或控制架构对比 |
本研究 | 固定翼 | 比例-积分-微分、强化学习(混合、集成、统一) | 深度确定性策略梯度 | 仿真 | 对三种新型强化学习控制框架进行了系统化高度保持对比 | 与比例-积分-微分进行基准测试;强调风扰下的效率与模块化设计 |
尽管本研究仅聚焦纵向平面高度控制,但由于气动非线性、执行器饱和与风扰及空气密度波动等环境干扰,该任务仍非平凡。高度调节在多项实际无人机应用中亦至关重要——如作物喷洒、地形跟随监视与巡飞任务——其中保持恒定高度对任务成功关键。因此,该维度控制策略的聚焦评估为未来多轴扩展奠定有意义基础。
论文第二章开始系统描述,涵盖气动模型生成与控制器设计等关键方面。第三章呈现传统比例-积分-微分控制器设计方法,而第四章介绍强化学习智能体开发与奖励函数设计。随后第五章提供三种不同强化学习控制实现的全面讨论与所得结果,并以总结收尾。