《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

强化学习（RL）和人在回路（HitL）学习方面的最新进展使人类与人工智能体的合作变得更加容易。在智能系统中利用人类与人工智能的专业知识和经验，既高效又有益。不过，人类与人工智能的协作能在多大程度上取得成功，以及这种组队与仅有人类或人工智能体的组队相比表现如何，目前仍不清楚。在这项工作中，我们证明了向人类学习是有效的，而且在复杂的模拟环境中，人类-人工智能协作的表现优于人类控制的和完全自主的人工智能体。此外，我们还开发了一种新的关键基础设施保护模拟器，重点关注人工智能驱动的无人机和人类团队合作抵御敌方无人机攻击机场的场景。我们开发了一个用户界面，让人类能够有效地协助人工智能体。我们证明，与向人类或智能体学习相比，智能体在向政策校正学习时学习速度更快。此外，与人类直接控制所有智能体相比，人类与人工智能的协作需要更低的精神和时间要求，减少了人类的努力，并产生了更高的性能。总之，我们的研究表明，人类可以为 RL 智能体提供有益的建议，让它们在多智能体环境中提高学习能力。

保护机场等关键基础设施免受安全威胁是一项复杂、敏感和昂贵的任务，因此人们一直在探索自动和自主解决方案[1]。然而，由于目前技术成熟度和训练有素的操作员方面的限制，在关键应用中采用全自动和自主解决方案并不可取。这可能会导致性能低下、基础设施严重受损以及其他附带损害风险增加。此外，培训人类如何有效地使用这些解决方案仍然是一个相当大的挑战。另一方面，对此类系统的持续监控、快速评估和处理潜在威胁将受益于人工智能能力。在许多情况下，由于系统的复杂性或数据的稀缺性，人工智能体需要在合理的时间范围内实现完全自主的协助[2]。另一个重大挑战是人工智能体捕捉上下文理解的能力。例如，考虑一个机场安防场景，隶属于机场当局的人工智能系统在夜间通过监控摄像头或无人机检测到快速移动。该系统可能会将这一移动归类为入侵者，但由于缺乏上下文的细微差别，无法将其识别为当地警察在机场周边的例行巡逻。

人类通常拥有解决复杂问题的领域专长、经验和对上下文的理解，而这些是智能体难以学习或复制的。例如，考虑到上述例子，人类操作员可能会根据无人机出现和行为的相关情况，将无人机识别为例行巡逻。与此同时，智能体缺乏做出适当反应的知识。在安全关键型应用中，人的决策变得至关重要，因为在这种应用中，可能会出现部分预料不到的情况。考虑到人类专业知识的价值，有必要在协作环境中有效利用人类知识和态势感知，尤其是在国防或安全等关键应用中。结合人类操作员和自主系统优势的系统可能会使这些应用受益。这种整合旨在降低系统成本，提高任务性能，同时在危险或关键操作中保持有意义的人工控制。这种混合方法对于降低这些高风险环境中的潜在风险至关重要[3]。

最近，强化学习（RL）成功地解决了许多复杂的决策问题，例如掌握围棋[4]、在平流层部署超压气球[5]和生成合成药物[6, 7]。虽然 Atari 和 Mujoco 等成熟领域已成为前沿 RL 研究的基准[8, 9]，但针对复杂领域引入模拟器以促进人类人工智能协作的探索还较少[10, 11]。然而，深度 RL 面临的一个显著挑战是样本效率低下 [12]，需要与环境进行数百万次交互，因此难以适应现实世界的问题。为了缓解这一问题，示范[13-15]、行动建议[16-18]、偏好[19-21]和奖励塑造[22-25]等给出建议的技术已被用于引导 RL 智能体进入状态空间的相关部分。然而，这些工作大多局限于游戏领域和由训练有素的智能体提供建议。一个重要且相对尚未探索的方面是，在复杂的真实世界环境中，通过人类示范来提高人类与智能体协作的潜力。此外，目前有关人类与智能体协作的文献显示，在为人类提供有效建议而进行的智能用户界面设计和集成方面存在明显的不足。这种稀缺性经常导致人类与智能体之间的误解，阻碍了人类操作员专业知识的使用。

为了应对复杂现实世界领域的挑战，我们针对机场禁区保护系统这一特定问题开发了一种新型模拟器和用户界面。使用案例包括一个由盟友无人机组成的机群，试图保护限制空域免受多架无人机的入侵。根据防空领域专家的建议，模拟器的设计模拟了真实世界的动态场景。这包括无人机的速度、飞行动态、地面雷达传感器的规格、传感有效载荷（雷达和光电），以及嵌入 "蓝色 "无人机的中和有效载荷。这种真实世界的动态变化使得环境变得复杂。环境的复杂性意味着一个天真的 RL 智能体需要多次环境交互才能学习到最优策略。考虑到在指定领域中这些交互所带来的成本和风险，经过训练的智能体需要具有样本效率。我们证明，对于所提到的复杂环境，从人类或智能体演示中学习可以最大限度地减少所需的环境交互次数。一些研究[26-28]表明，当一个人监督复杂系统中的多个智能体时，监控需求的增加会对他们的工作量和认知负荷产生负面影响--这最终会阻碍工作表现。

我们证明，训练有素的智能体具有更好的决策能力，可以减少人类操作员的工作量，提高人类-智能体团队的绩效。创建人类-智能体协作的主要目标是利用智能体和人类的优势，同时减轻它们的劣势。例如，智能体擅长分析庞大的数据集和根据特定模式快速做出决策等任务，表现优于人类[29]。相反，与智能体相比，人类则表现出植根于道德价值观和语境理解的卓越决策能力 [30]。特定国防领域用例的一个特点是，作战行动是多变的，往往极难预测，而且道德风险可能极高。为了保持人类行使权力和指挥权，我们还使用人类策略修正来纠正受训智能体的策略。我们的研究表明，在线策略修正是提高智能体学习效果、实现最佳性能的最有效建议形式。此外，我们还证明，与人类控制未经训练的智能体（本领域中的无人机）相比，人类在进行策略修正时的认知工作量更低。我们使用非专家人类和智能体演示，以展示我们的方法在解决人类专家有限可用性方面的稳健性。

贡献本文有以下贡献：

1.介绍了一种新型多智能体模拟器，用于国防特定机场保护用例建模，模拟多个盟友和敌方无人机智能体的真实世界动态。

2.使用最先进的深度 RL 算法在新型模拟器内训练多个智能体。

3.在模拟器内开发用户界面，使人类操作员能够动态控制单个或多个智能体，进行情境演示，从而实现人机协作。

4.通过经验证明，训练有素的智能体演示或人类与智能体的混合演示有助于智能体更快地学习。

5.比较和评估多种建议提供技术，即从演示中学习和策略修正。

6.通过一项用户研究，比较各种建议提供技术的人类认知工作量，证明与人类完全控制智能体相比，策略修正所需的工作量更少。

成为VIP会员查看完整内容