摘要

由HAVELSAN公司开发的虚拟环境中的部队（FIVE）模拟器软件，利用各种虚拟战争设备（如武器、传感器和通信工具等），以安全和具有成本效益的方式提供全面的战术和行动训练环境。目前，管理FIVE实体的行为模型高度依赖于由现场专家和系统工程师开发的基于规则的行为。然而，FIVE软件的基于规则的操作需要密集的编程和现场专家的指导，因此是高度劳动密集型。此外，这项任务的复杂性和负担随着场景的复杂性而大大增加。此外，具有基于规则的行为的虚拟实体对其环境有标准和可预测的反应。因此，在这项研究中，我们通过强化学习技术和其他机器学习技术，即FIVE-ML项目，提出了从基于规则的行为到基于学习的自适应行为的过渡研究。为此，我们主要对空对空和空对地两种情况下的六个虚拟实体进行了基于强化学习的行为模型训练。据观察，用强化学习训练的虚拟实体主导了现有的基于规则的行为模型。在这些实验中，我们还发现，在强化学习之前，利用监督学习作为起点，可以大大减少训练时间，并创造出更真实的行为模型。

引言

今天，培训将使用飞机的飞行员是最重要的。用真实的飞机训练飞行员是相当困难的，原因包括空域法规、过高的成本和训练中可能出现的风险，以及创造真实世界场景的复杂性，包括对手或盟友使用的真实防御和战争平台。飞行员训练中使用的飞行模拟经常与战术环境模拟结合在一起工作。通过这些战术环境模拟，飞行员通过控制高保真飞机模型在许多低保真实体的存在下完成场景的训练。这些低保真资产由计算机创建和控制，通常被命名为计算机生成的部队（CGF）[1]，它们是代表空中、陆地或海上防御或攻击系统的自主单位。

CGFs被用于人员部署的准备过程、战术训练或新战略的开发。CGFs需要为每个应用（或每个场景）进行不同的编程。这些由传统方法创造的力量会导致非适应性和不灵活的行为模式。这导致学生在静态编程的资产面前接受模拟训练，降低了训练的质量。当需要新的场景时，需要专家来创建新的场景。此外，由于情景创建将使用经典的控制分支进行，在创建新情景的过程中，考虑所有的可能性往往是不可行的，即使是可能的，也是一项相当有挑战性的任务。由于这些原因，人们越来越需要更真实的虚拟环境和新的场景来适应不断变化的世界，以模拟飞行员候选人自己的任务和敌对部队的当前能力和战术。

在这项研究中，提出了向以人工智能为导向的行为建模过渡，而不是传统的特定场景建模，以此来解决前面描述的问题。换句话说，虚拟实体将被转化为能够学习的动态虚拟实体。但这些虚拟实体在训练过程中需要考虑许多情况。首先，他们必须学会对他们用传感器感知到的环境因素作出适当的反应。然后，它必须识别他的队友和敌人，并根据他们的等级信息和附加在他们身上的弹药类型采取行动。它应该能够与他的队友合作，采取团队行动。

为虚拟资产添加智能的机器学习的首选方法是强化学习（RL）[2]，其根本原因是：实体将采取的行动有延迟的后果。近年来，与传统的控制方法相比，RL被认为是解决复杂和不可预测的控制问题的新方法，并在许多领域得到利用，如机器人、计算机视觉、自动驾驶、广告、医学和保健、化学、游戏和自然语言处理[3]-[9]。自从将深度学习引入RL概念（即深度RL[10]）后，文献中的研究得到了提升，如许多具有挑战性的计算机视觉和自然语言处理任务[11]-[15]。

为了这个目的，在这项研究中（即FIVE-ML），已经实现了从HAVELSAN FIVE软件的基于规则的行为模型向基于RL的行为模型过渡的第一阶段实验。从这些实验中可以看出，用RL算法训练的智能虚拟实体在空对空和空对地的情况下都优于HAVELSAN现有的基于规则的实体。此外，模仿学习[16]、[17]和RL的联合实施也取得了成功，这加快了FIVE软件的完整过渡过程。

可以预见，通过学习飞行员候选人的选择来开发新策略的模拟将把飞行员培训带到一个非常不同的点。当项目完成后，将设计一个新的系统，允许在其领域内培训更多装备和专业的战斗机飞行员。一个现有的基于规则的场景系统将演变成一个可以自我更新的系统。因此，飞行员候选人将有机会针对智能实体发现的新策略来发展思路，而不是满足于该领域的专家的知识和经验。此外，从一个经过大量努力准备的场景机制，计算场景自动化机制将使整个过程自动化。

成为VIP会员查看完整内容