本论文利用强化学习(RL)来解决空战机动模拟中的动态对抗博弈问题。空战机动模拟是运筹学领域常见的一种顺序决策问题,传统上依赖于智能体编程方法,需要将大量领域知识手动编码到模拟环境中。这些方法适用于确定现有战术在不同模拟场景中的有效性。然而,为了最大限度地发挥新技术(如自动驾驶飞机)的优势,需要发现新的战术。作为解决连续决策问题的成熟技术,RL 有可能发现这些新战术。

本论文探讨了四种 RL 方法--表式、深度、离散到深度和多目标--作为在空战机动模拟中发现新行为的机制。它实现并测试了每种方法的几种方法,并从学习时间、基准和比较性能以及实现复杂性等方面对这些方法进行了比较。除了评估现有方法对空战机动这一特定任务的实用性外,本论文还提出并研究了两种新型方法,即离散到深度监督策略学习(D2D-SPL)和离散到深度监督 Q 值学习(D2D-SQL),这两种方法可以更广泛地应用。D2D-SPL 和 D2D-SQL 以更接近表格方法的成本提供了深度 RL 的通用性。

贡献

本文有助于以下研究领域:

  • 设计奖励信号以推动空战机动领域的学习,以及确定最有效信号的相应评估。
  • 第 6 章中介绍的结合 RL 和监督学习的新方法,可加速深度 RL 并超越基准算法。考虑到 RL 的训练是一项非常昂贵和资源密集型的操作,这些缩短学习时间的新方法是本论文最重要的贡献。
  • 优于单目标智能体的多目标 RL 智能体,在第 7 章中介绍。这是一个非常重要的贡献,因为它证明了多目标 RL 这一相对较新的发明可以在不增加学习时间的情况下超越单目标 RL 的性能。
  • 用于训练和测试单目标和多目标 RL 智能体的开源框架。

成为VIP会员查看完整内容
70

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《利用人工神经网络进行雷达信号处理》253页
专知会员服务
51+阅读 · 3月15日
《分布式海战中的人机协同作战》142页报告
专知会员服务
146+阅读 · 2023年9月19日
《基于强化学习开发战斗行为》美国海军研究生院
专知会员服务
84+阅读 · 2022年6月27日
基于模型的强化学习综述
专知
18+阅读 · 2022年7月13日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2014年12月31日
国家自然科学基金
39+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2014年12月31日
国家自然科学基金
31+阅读 · 2014年12月31日
国家自然科学基金
37+阅读 · 2011年12月31日
国家自然科学基金
26+阅读 · 2008年12月31日
Arxiv
132+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
56+阅读 · 2023年3月26日
Arxiv
115+阅读 · 2023年3月24日
Arxiv
16+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2014年12月31日
国家自然科学基金
39+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2014年12月31日
国家自然科学基金
31+阅读 · 2014年12月31日
国家自然科学基金
37+阅读 · 2011年12月31日
国家自然科学基金
26+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员