「强化学习在无人车领域」的应用与展望

无人车（ＵＧＶ）可替代人类自主地执行民用和军事任务，对未来智能交通及陆军装备发展有重要战略意义。随着人工智能技术的日益成熟，采用强化学习技术成为了无人车智能决策领域最受关注的发展趋势之一。本文首先简要概述了强化学习的发展历程、基础原理和核心算法；随后，分析总结了强化学习在无人车智能决策中的研究进展，包括障碍物规避、变道与超车、车道保持和道路交叉口通行四种典型场景；最后，针对基于强化学习的智能决策面临的问题和挑战，探讨并展望了未来的研究工作与潜在的研究方向。

1. 引言

无人车是指不具有人类驾驶机构并可以自主执行运输、公交、物流、清扫、巡逻、救援、作战、侦察等民用或军用任务的智能车辆。在民用领域，无人车已成为未来智能交通与智慧城市建设的核心要素。在军用领域，无人车也已成为各军事大国竞相角逐的新一代陆军装备。无人车的核心技术主要有环境感知、智能决策、路径规划、动力学控制、集群调度等相关技术。其中，智能决策是无人车的关键核心技术之一，其性能是衡量无人车智能化水平的重要标准。智能决策系统根据任务调度信息、环境感知信息和无人车状态信息等，做出合理、安全的驾驶决策，并输出车辆控制指令，以控制车辆完成指定任务。无人车智能决策系统的算法主要包含规则驱动［１－２］和数据驱动两类算法［３－４］。由规则驱动的决策系统基于既定规则构建，其根据人类驾驶经验及交通规则等建立相应的驾驶行为决策库，结合感知系统得到的环境信息进行车辆状态的划分，依据预设的规则逻辑确认车辆行为［５］。这类基于规则的决策系统无法枚举和覆盖所有交通场景，且在交通复杂、不确定性强的路况中，常因规则数目冗杂和行为决策库触发条件的重叠而导致决策无法求解、决策系统的自适应性和鲁棒性不足等问题。基于强化学习的决策方法是数据驱动的无人车决策系统的代表，该方法将无人车决策过程视为黑箱，利用机器学习建立由传感器到转向系统、驱动系统、制动系统等执行机构的映射，实现基于高维度感知数据对执行机构的直接控制。这类决策算法把整个自动驾驶过程与神经网络深度融合，通过由数据驱动的仿真训练使神经网络学习在不同交通场景下的智能决策能力。

强化学习技术是人工智能领域的研究热点，适用于解决复杂的序贯决策问题，在机器人控制［６－７］、调度优化［８－９］、多智能体协同［１０－１１］等领域中，取得了令人瞩目的成果。强化学习的基本思路是智能体依靠探索试错以及环境交互的方式，结合反馈信号学习最优策略。近些年，随着强化学习的广泛研究和应用，特别是综合了深度学习的特征提取能力和强化学习的策略优化能力的深度强化学习（ｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ，ＤＲＬ）取得突破性进展之后，采用强化学习技术解决无人车智能决策问题成为无人车领域最受关注的研究方向之一。

本文旨在综述强化学习在无人车领域的应用。首先介绍了强化学习的发展历史、基础原理和核心算法；然后分析总结了强化学习在无人车智能决策问题中的研究现状，包括避障、变道与超车、车道保持及道路交叉口通行四个典型的决策场景；最后探讨并展望了未来的研究工作和潜在的研究方向。

１强化学习的基本理论

强化学习是动物心理学、最优控制理论和时序差分学习等学科交叉的产物［１２］。强化学习的“试错”思想源于动物心理学家对试错行为的研究，最早可追溯到Ｐａｖｌｏｖ的条件反射实验。１９１１年美国心理学家Ｔｈｏｒｎｄｉｋｅ提出效应定律，第一次明确地阐述了试错行为的本质是学习。最优控制理论，是现代控制体系的关键分支之一。在２０世纪５０年代初，美国数学家Ｂｅｌｌｍａｎ等提出求解最优控制的动态规划法（ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ，ＤＰ），该方法衍生出了强化学习试错迭代求解的机制。时序差分学习（ｔｅｍｐｏｒａｌｄｉｆｆｅｒｅｎｃｅｌｅａｒｎｉｎｇ，ＴＤＬ）是ＤＰ和蒙特卡洛方法结合的产物。１９５９年Ｓａｍｕｅｌ首次提出并实现一个包含时序差分思想的学习算法。１９８９年Ｗａｔｋｉｎｓ在他的博士论文将最优控制和ＴＤＬ整合，并提出Ｑ学习算法，这项工作正式标志着强化学习的诞生，该算法通过优化累积未来奖励信号学习最优策略。随后，Ｗａｔｋｉｎｓ和Ｄａｙａｎ共同证明Ｑ学习算法的收敛性。表１总结了强化学习发展历程中的若干重要事件。

２强化学习在自动驾驶领域的应用

2.1 在避障问题中的应用

在避障问题中无人车根据自车和障碍物的位置和状态信息，在满足乘坐舒适性和行驶安全性的条件下，输出转向、制动和油门指令控制车辆规避障碍物。Ａｒｖｉｎｄ等［２２－２３］提出基于ＭＬＰＳＡＲＳＡ和基于ＭＬＰＱ学习的避障算法。设计了以车载的７个超声波雷达的感知数据为输入量，输出离散的制动、转向和加速动作的端对端决策模型，将多层感知机（ｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ，ＭＬＰ）引入到对Ｑ函数的预测中，以提高避障策略的收敛速度。车辆在包含多个动态障碍物的仿真环境下实现自主避障，且无碰撞通行的成功率达９６％。Ｃｈａｅ等［２４］提出复杂城市场景下基于ＤＱＮ的主动制动算法，如图４所示。使用６层的深度神经网络架构，采用障碍物相对于主车的横向和纵向的位置和速度作为ＤＱＮ网络输入，输出无制动、弱制动、中制动和强制动四个不同强度等级的制动动作。在奖励函数的设计中，考虑车辆的乘坐舒适性和安全性，对过早的制动行为和与障碍物发生碰撞进行惩罚。经过２０００次的迭代训练，无人车能有效地处理行人横穿马路等随机突发事件，但面对碰撞时间（ｔｉｍｅｔｏｃｏｌｌｉｓｉｏｎ，ＴＴＣ）等于１．４ｓ的紧急工况仅有７４％的避障成功率。

虽然上述基于值函数的避障算法通过将动作离散化取得较好的避障效果，但在执行动作的精度和紧急情况下的避障成功率上仍然有待提高。部分学者考虑将用于高维连续空间的基于策略的强化学习方法应用于避障问题中。Ｚｏｎｇ等［２５－２６］设计基于ＤＤＰＧ的避障算法，策略网络以车载的多类型传感器融合感知数据作为状态输入，输出动作空间连续的转向、油门、制动动作。相比于文［２４］，该算法解决了连续动作空间下避障决策所引发的维数灾难，实现动作空间连续的车辆动作输出，提高了决策模型输出动作的精度。Ｐｏｒａｖ等［２７］在研究中运用变分自编码器（ｖａｒｉａ ｔｉｏｎａｌａｕｔｏｅｎｃｏｄｅｒ，ＶＡＥ）对障碍物特征降维，将高维语义图像映射到低维且保留原始语义信息的隐变量，将低维的隐变量及其预测状态作为ＤＤＰＧ网络输入，有效剔除了环境无关因素对决策的影响，并提高了决策模型训练收敛速度。此外，作者建立基于ＤｅｌｔａＶ模型的奖励函数，利用碰撞前后车辆速度差值衡量车辆碰撞的严重程度，以量化危险驾驶行为的惩罚。相比于文［２４］，该算法在ＴＴＣ为１ｓ和０．７５ｓ的极端紧急情况，仍能保持１００％和９５％的避障成功率。

Ｆｕ等［２８］详细分析了车辆在紧急情况下的制动过程和乘坐舒适性变化，提出包含多目标奖励函数的ＤＤＰＧ算法，可综合衡量制动触发时刻、事故严重程度和乘坐舒适度等指标。在仿真试验中，所提出算法在紧急情况下避障成功率相较于基于ＤＤＰＧ和ＤＱＮ的避障算法分别提高４％和１２％。余伶俐等［２９］针对无人车在避障过程中对周围车辆驾驶意图预判不足的问题，设计了基于蒙特卡洛预测—深度确定性策略梯度（ＭＣＰＤＤＰＧ）的决策方法。该方法假设车辆状态的转移满足马尔可夫性，将周围车辆的位置和速度作为观测方程参数，利用ＭＣＰ预测其他车辆的运动轨迹，有效地提高决策模型在紧急情况下的响应时间。实车试验证明该决策方法能够有效预估碰撞风险，降低无人车发生碰撞的概率。基于强化学习的方法虽然可通过增加避障场景库的广度，以尽可能多地覆盖各种复杂避障工况。但当面临ＴＴＣ过小等临近碰撞的极端工况，决策模型的稳定性和安全性亟待提高。

2.2 在变道与超车问题中的应用

在变道与超车问题中，无人车根据自车和周围车辆状态、自车的期望速度和交通规则约束等，做出变道及超车决策，指导车辆超越前方低速车辆，以尽快地通过特定的交通流。Ｌｏｉａｃｏｎｏ等［３０］提出基于Ｑ学习的超车决策算法，建立了包含主车和前方车辆相对距离、相对速度，主车和车道边缘横向距离等在内的离散状态，并以有限的离散动作驱动车辆完成超车。在ＴＯＲＣＳ赛车模拟器中验证了该算法在直线赛道和弯道上的超车效果，在超车持续时间、超车时最高车速和超车成功率等指标上明显优于人类驾驶员。针对求解连续空间下超车决策问题时Ｑ学习存在的计算效率低的问题。Ｌｉｕ等［３１－３２］提出基于线性函数逼近强化学习的变道决策算法。作者将变道场景建立为状态、动作空间连续的ＭＤＰ模型，将基于多核的最小二乘策略迭代法（ｍｕｌｔｉｋｅｒｎｅｌＬＳＰＩ，ＭＫＬＳＰＩ）引入对Ｑ函数的拟合中，并基于国防科技大学研制的红旗ＨＱ３无人车采集的实车感知数据，对决策算法开展离线测试工作，论证了算法的有效性和泛化能力。Ｍｉｎ等［３３］利用非线性值函数逼近的方法，提出基于ＤｕｅｌｉｎｇＤＱＮ的超车决策算法，构建以卷积神经网络（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ＣＮＮ）和长短期记忆网络（Ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ，ＬＳＴＭ）提取的视觉图像和雷达点云的特征作为状态输入，输出横向的变道操作及纵向的车速变化的决策模型。该算法改进ＤＱＮ网络结构，利用ＤＮＮ输出的状态值函数和动作优势函数近似拟合Ｑ函数，提高了策略学习的收敛速度。Ａｎ等［３４］提出车联网环境下基于ＤＤＰＧ的变道决策算法，网络结构如图５所示。该算法策略网络输入包含两部分，分别为由车载传感器获得的主车状态信息和由Ｖ２Ｘ通信获得的前方车辆状态信息，并通过２个全连接的隐藏层输出对主车油门和方向盘的控制。在Ａｉｒｓｉｍ软件中的仿真实验验证该算法的有效性，但由于输入层网络结构固定，其仅能处理２个车辆交互这种简单场景，缺少对更为复杂交通场景的适应性。

针对文［３４］无法处理无人车在复杂的包含多车交互场景下变道的问题。Ｗｏｌｆ等［３５］提出一种基于通用语义状态模型的超车决策算法。该算法将驾驶场景抽象映射到一个包含交通参与者列表（车辆、行人、车道等）并叠加场景关系描述（交通参与者相对于主车的速度、位置、相对车道信息等）的跨场景、通用的语义状态模型，实时地输入到基于ＤＱＮ的决策模型中。在ＳＵＭＯ仿真环境中，该算法可处理存在７辆交互车辆场景下的超车决策问题。Ｈｕｅｇｌｅ等［３６－３７］提出基于ＤｅｅｐＳｅｔＱ学习和Ｓｅｔ２ＳｅｔＱ学习的超车决策算法。作者分别利用深度集（ｄｅｅｐｓｅｔｓ，ＤＳ）和图卷积网络（ｇｒａｐｈｃｏｎｖｏｌｕ ｔｉｏｎａｌｎｅｔｗｏｒｋ，ＧＣＮ）提取无人车感知域内多车的状态特征，作为ＤＱＮ网络输入，解决了基于ＤＱＮ的决策算法因网络结构固定，无法处理数量可变的状态输入的问题，提高超车决策算法在不同交通密度场景应用的可移植性。

在变道与超车场景中，复杂的环境状态和车辆动作空间，以及多车间的交互行为，导致训练过程中策略难以收敛。有学者将分层思想和模仿学习（ｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ，ＩＬ）引入到基于强化学习的决策算法中。Ｄｕａｎ等［３８］提出高速公路场景下基于分层强化学习（ｈｉｅｒａｒｃｈｉｃａｌｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ，ＨＲＬ）的变道决策算法，算法框架如图６所示。决策网络包括主策略和子策略两层，分别用于高层行为决策（车道内驾驶、左／右车道变换）和底层运动控制（方向盘转角、车辆速度等控制）。ＨＲＬ将复杂的变道决策任务分解为若干个简单的子任务，在不发生维数灾难的情况下实现多任务学习，提高决策算法场景遍历的广度。此外，受启发于Ａ３Ｃ算法多线程并行的训练方式，作者利用异步并行训练的网络参数的平均梯度更新共享网络参数，以加快ＨＲＬ训练速度。宋晓琳等［３９］提出ＩＬ和强化学习结合的决策算法，将变道决策划分为宏观决策层和细化决策层。宏观决策层中，作者基于专家变道决策的示范数据集构建极端梯度提升（ｅＸｔｒｅｍｅＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇ，ＸＧＢｏｏｓｔ）模型，模仿经验丰富的专家驾驶员做出宏观决策。细化决策层中，作者构造多个基于ＤＤＰＧ算法的子模块，分别处理车道保持、左变道和右变道中具体执行的动作。在Ｐｒｅｓｃａｎ软件中的仿真训练，所提出方法策略收敛所需的步数较基于强化学习的方法降低约３２％。Ｌｉａｎｇ等［４０］提出基于可控模仿强化学习（ｃｏｎｔｒｏｌｌａｂｌｅｉｍｉｔａｔｉｖｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ，ＣＩＲＬ）的变道决策算法。首先利用引入门控机制的ＩＬ网络学习专家提供的驾驶示范集，通过网络权重共享的方式将预训练结果迁移到ＤＤＰＧ决策模型中，以初始化ＤＤＰＧ动作探索策略，解决了连续动作空间下ＤＤＰＧ算法探索效率低、对超参数敏感的问题。

针对变道与超车过程中未知和不确定性因素对无人车安全性的影响。Ｚｈａｎｇ等［４１］考虑前车异常驾驶行为对超车安全性的影响，将模糊推理系统（ｆｕｚｚｙｉｎｆｅｒｅｎｃｅｓｙｓｔｅｍ，ＦＩＳ）引入到变道决策中。其主要思想是基于车载激光雷达获得的前方车辆的位置、速度和航向角，利用ＦＩＳ分析前方车辆的驾驶激进度，进而判断超车风险类型，以指导基于强化学习的决策算法采取保守或激进的超车策略。Ａｌｔｈｏｆｆ等［４２－４３］考虑周围车辆驾驶意图未知、感知系统观测不完整、传感器的扰动与噪音等不确定因素，提出基于安全强化学习的变道决策算法。运用可达性分析（ｒｅａｃｈａｂｉｌｉｔｙａｎａｌｙｓｉｓ，ＲＡ）［４４－４６］预测周围车辆在满足物理约束和交通规则下，在设定时间内所有可能的可达集，通过判断无人车和其他车辆的可达集是否存在交集，来验证变道决策的安全性。从上文综述可知，基于强化学习的决策算法在处理动态多车交互、策略收敛速度、决策安全性方面有较大的局限性，且难以从强化学习模型本身加以改进。与安全验证、行为分析及其他机器学习方法相结合，可显著地提高基于强化学习的变道和超车决策算法的性能。

2.3 在车道保持问题中的应用

在车道保持问题中，无人车根据车载传感器获得的车道线信息，输出车辆方向盘转角控制指令，以使车辆在车道中心线附近行驶。视觉感知是检测车道线的最有效手段。方川［４７］提出基于ＤｏｕｂｌｅＤＱＮ的车道保持算法，以原始的ＲＧＢ图像作为网络输入，分别利用当前Ｑ网络和目标Ｑ网络处理方向盘控制动作选择和目标Ｑ函数预测。在仿真试验中，车辆在直线车道及大曲率弯道的车道保持任务中均表现出良好的性能。Ｋｅｎｄａｌｌ等［４８］提出视觉感知数据输入下基于ＤＤＰＧ的车道保持算法（如图７），并将在虚拟环境中训练好的算法网络结构和参数迁移到实车上，车辆仅依靠单目相机的ＲＧＢ图像完成了２５０ｍ的车道保持路测。然而该方法忽略视觉传感器抗干扰能力差、易受光照影响等缺点，且决策模型场景遍历的深度不足，难以完成特殊天气条件下的车道保持任务。

原始视觉图像包含大量与决策无关的环境细节，而细微的环境变化易导致决策模型错误，进而引发车辆驶出车道等危险驾驶行为。针对此问题，Ｗｏｌｆ［４９］利用机器视觉剔除无关环境信息，提取车道线的灰度化图像，构建由灰度化的视觉图像到车辆方向盘的端对端决策，降低细微的环境亮度变化及无关环境细节对决策模型的影响。并利用经验回放机制降低训练样本的相关性，以减轻ＤＱＮ算法处理高维图像数据时存在的不稳定性。视觉感知缺少车辆与道路边缘的距离信息，而其他具有目标距离测量功能的传感器对提取车道线信息具有重要的补充作用。杨顺等［５０］研究了多源感知数据输入下基于ＤＤＰＧ的车道保持算法，如图８所示。策略网络分别利用一维和二维ＣＮＮ提取低维目标级感知数据和高维视觉图像数据的特征，并输出每一时间步长内车辆的动作，价值网络根据策略网络提取的低维特征和输出的车辆动作预测Ｑ函数。作者构建包含期望车速、车辆偏离中心距离、车辆与车道中心线的夹角在内的奖励函数，指导车辆与环境交互。在直线车道和弯道下的仿真实验中，车辆的横向偏移量和车辆与车道中心线的夹角均保持在理想的范围内。作者利用不同ＣＮＮ对多类型传感器数据进行特征提取，并通过特征组合的方式，解决了视觉传感器获取车道线信息不完备、信息冗余性差的问题。

基于强化学习的车道保持算法具有重大的应用潜力，但是视觉传感器作为主要的车道线检测手段，其感知图像包含丰富的环境细节，且图像细节随光照、天气等环境因素显著变化，给决策模型的稳定性和泛化能力带来巨大的影响。引入能稳定地在复杂多变环境下提取车道线特征的方法，并有效地利用和融合其他类型传感器数据，对提高决策性能有着重要意义。

2.4 在道路交叉口通行问题中的应用

在道路交叉口通行问题中，无人车根据交叉口各车道上车辆位置、速度及交通规则等，输出执行机构控制指令，以控制车辆无碰撞地通过交叉口。无交通信号灯的交叉口通行是最具挑战性的交通场景，学者们对基于强化学习的通行决策方法进行大量研究。Ｓａｘｅｎａ等［５１］设计基于近端策略优化（ｐｒｏｘｉｍａｌｐｏｌｉｃｙｏｐｔｉｍｉｚａｔｉｏｎ，ＰＰＯ）的通行决策算法。作者利用由数据驱动的仿真训练建立交叉口中无人车周围车辆间交互的隐式模型，并通过设置车辆的加速度和转向角度阈值，减少不良的加速和转向动作，提高乘坐舒适性。Ｑｉａｏ等［５２］提出课程式学习（ｃｕｒｒｉｃｕｌｕｍｌｅａｒｎｉｎｇ，ＣＬ）和ＤＲＬ结合的交叉口决策算法。作者利用ＣＬ自动生成若干由简单到复杂的样本，引导ＤＲＬ学习驶入并通过城市交叉路口的策略，仿真实验中通过交叉口的成功率达９８．７％。Ｍüｌｌｅｒ等［５３］提出基于视觉场景理解的决策算法，引入编码器—解码器网络来提取ＲＧＢ视觉图像更细化的语义特征，实现原始图像到多场景通用的语义分割图像的映射，将语义图像作为决策模型输入，输出车辆期望的轨迹。其后，作者将训练好的决策模型迁移至小型卡车上，车辆可在多个驾驶场景（晴朗、阴天、雨雪）自主地通过交叉路口。该方法通过模块化和抽象语义分割的方法降低真实场景传感器噪声等对决策的影响，提高决策算法的迁移能力。无交通信号灯的交叉口中车辆缺少交通规则约束。无人车无法获悉其他车辆的驾驶意图，因而无法预判其行驶轨迹，且因车辆间的相互遮挡易造成无人车的感知盲区，给决策的安全性带来巨大隐患。Ｉｓｅｌｅ等［５４－５５］利用卡尔曼滤波（Ｋａｌｍａｎｆｉｌｔｅ ｒｉｎｇ，ＫＦ）预测可能与无人车发生碰撞车辆的行驶轨迹，并根据预测结果约束ＤＱＮ决策算法的动作空间，提高车辆在交叉口通行的安全裕度。Ｇｒｕｂｅｒ等［５６］设计基于ＲＡ的在线安全验证方法，利用ＲＡ建立其他车辆未来时间在交叉口所有可达集，以验证决策的安全性。其后，Ｌａｕｅｒ等［５７］提出基于ＲＡ和责任敏感安全模型（ｒｅｓｐｏｎｓｉｂｉｌｉｔｙｓｅｎｓｉｔｉｖｅｓａｆｅｔｙ，ＲＳＳ）的验证方法，解决了ＲＡ因考虑最危险情况下周围车辆的占用空间而导致的无人车在交叉口驾驶策略过度保守的问题。Ｓｔｉｌｌｅｒ等［５８］提出一种风险认知ＤＱＮ的交叉口决策算法，在奖励函数中引入风险项度量感知盲区内的车辆对决策安全性的程度，减少无人车采取冒进决策行为的概率。无交通信号灯的交叉口的复杂程度高，且事故风险隐患多，给无人车决策的安全性带来巨大挑战。基于强化学习的决策模型无法有效预估事故风险，结合行驶轨迹预测、安全性验证等方法对提高决策安全性具有重要意义。

３强化学习在无人车领域的应用展望

无人车可自主执行运输、物流、清扫、巡逻、救援、作战、侦察等民用或军用任务，是未来智能交通与新一代陆军装备发展的核心要素，对汽车产业发展与国防安全建设具有重要意义。面向未来无人车技术发展需求，高效、准确、稳定的智能决策技术已经成为限制无人车行业水平提升与大规模产业应用的关键技术瓶颈。强化学习技术是实现无人车智能决策技术水平提升的最重要突破口之一。但是，基于强化学习的智能决策存在泛化能力弱、可解释性差，缺少安全验证等问题，限制了其在实车上的应用。此外，云控制、车联网及大数据等先进技术在无人车领域的应用极大程度拓宽了强化学习技术的应用内涵，带来了全新的挑战与不确定性。下面指出未来强化学习技术在无人车领域的研究重点：

１）提高强化学习在无人车决策上的泛化能力当前研究多利用强化学习构建从无人车的传感器到执行机构的端对端决策。而以复杂高维的图像、雷达点云等原始感知数据作为决策模型的输入，使得表征环境状态的特征维度过多，导致决策模型过拟合于特定的训练环境，难以迁移至新的驾驶场景。此外，模型训练中常忽略光照变化、背景干扰等敏感环境细节以及传感器噪音和自身扰动的影响，使得训练好的决策模型需要人工调参后才能迁移到实车上。提高强化学习在无人车决策上的泛化能力，已经成为其在无人车应用亟需解决的关键问题之一。为突破决策算法在新场景中泛化能力弱的瓶颈：（１）可借鉴虚拟到现实（Ｓｉｍ２Ｒｅａｌ）领域的研究成果，利用领域自适应（ｄｏｍａｉｎａｄａｐｔａｔｉｏｎ，ＤＡ）等方法将虚拟训练环境映射到真实行驶环境［５９］，以在训练过程中最大限度地模拟无人车与真实场景的交互过程。（２）从原始感知数据中提取或抽象出面向通用场景的低维环境状态表征，替代复杂高维的原始数据作为决策模型的输入［６０］，可以降低决策模型精度对行驶环境的依赖性。

２）提升强化学习在无人车决策上的可解释性

当前研究多利用基于复杂深度神经网络的深度强化学习学习驾驶策略。而训练好的决策模型因其复杂的网略结构及庞大的网略参数，导致人们难以理解模型内部的决策过程。在决策模型出现偏差和故障时，难以对错误源头进行排查和分析。提高强化学习在无人车决策上的可解释性，已成为提高其决策合理性与安全性的关键挑战之一。为解决决策算法的内部运行机制可解释性差的弱点：（１）利用概率图模型（ｐｒｏｂａｂｉｌｉｓｔｉｃｇｒａｐｈｉｃａｌｍｏｄｅｌ，ＰＧＭ）深度综合表征无人车行驶环境、行驶轨迹、交通参与者等的时序特征，并将高度可解释化的隐含状态作为模型输入［６１－６３］，可显著地提高模型的可解释性。（２）利用神经网络可视化技术以热力图的形式表征决策模型内部每一层的权重参数、特征图等，以实现模型决策过程的透明化［６４］。（３）也可借鉴机器人领域的最新进展，根据人类经验将复杂的作业任务分解为若干子任务，决策模型输出子任务的序贯组合，以组合的顺序表征无人车决策的合理性［６５］，也是值得深入探讨的话题。

３）提高强化学习在无人车决策上的安全性

当前研究多围绕感知完备等理想工况下的决策任务，且对车辆行驶中的不确定性因素考虑不足。而强化学习通过探索试错的机制学习驾驶策略，其随机性的探索策略常导致不安全的驾驶行为，给决策模型带来潜在的安全风险。此外，无人车行驶环境具有高度的不确定性，具体表现为周围车辆行驶意图和驾驶风格的不确定性，因遮挡和感知盲区造成的感知不完整性等，给决策模型的安全性带来巨大挑战。提高强化学习在无人车决策上的安全性，已经成为其在无人车应用亟需解决的重要技术瓶颈之一。为提高决策算法在复杂动态场景下决策的安全性：（１）可通过在奖励函数中引入风险项［６６］，在动作探索策略中引入安全约束［６７］，在动作执行中引入安全验证［６８］等方法，降低决策模型做出激进和危险决策的概率。（２）利用部分可观测ＭＤＰ（ｐａｒｔｉａｌｌｙｏｂｓｅｒｖａｂｌｅＭＤＰ，ＰＯＭＤＰ）将环境的不确定性因素作为隐变量［６９］，实现环境不完全观测下周围车辆的轨迹预测，可有效地提高车辆感知能力受限下决策的安全性。（３）利用基于严格数学定义的形式验证精确求解当前状态下无人车在预定时间内不安全状态的可达范围［７０］，验证其决策行为的安全性，以保证系统安全验证的完备性。

４）研究无人车大数据背景下基于强化学习的

云端决策技术基于云控制、车联网、大数据等先进技术的云控系统（ｃｌｏｕｄｃｏｎｔｒｏｌｓｙｓｔｅｍ，ＣＣＳ）［７１］在无人车领域的应用为无人车产业化落地提供重要的技术支撑，ＣＣＳ扩大了无人车的感知域，并提供强大的算力支持，实现无人车综合性能的显著提升。此外，ＣＣＳ可实时地获取并存储各无人车的硬件和软件系统海量的运行数据，并基于大数据分析建立云端的无人车性能预测模型、故障预警模型、交通流量预测模型、车辆集群调度模型等［７２－７３］，以提高无人车群体的安全性和效率。ＣＣＳ在无人车中的应用是未来无人车发展的重要趋势［７４］，并极大地丰富了强化学习在无人车领域的应用场景。研究无人车大数据背景下，云端决策系统利用强化学习技术，结合多源的时空感知数据和云端的交通流量、车辆性能等大数据预测结果，实现面向群体及单车层级的决策，将是非常有意义的工作。

４结论

本文综述了强化学习技术在无人车领域的研究现状，重点介绍了基于强化学习技术的无人车智能决策在避障、变道与超车、车道保持等典型场景下的应用。其次，展望了强化学习技术在无人车领域的应用前景。笔者看来，强化学习技术将极大程度地提高无人车的智能决策能力，是实现无人车规模化产业应用并服务于智能交通系统建设和新一代陆军装备发展的重要支撑。

成为VIP会员查看完整内容