《多域作战中用于人工智能（AI）和机器学习（ML）的合成环境》（中文版）美国陆军研究实验室报告

人工智能解决方案在陆军野战应用中的使用将在很大程度上依赖于机器学习（ML）算法。当前的ML算法需要大量与任务相关的训练数据，以使其在目标和活动识别以及高级决策等任务中表现出色。战场数据源可能是异构的，包含多种传感模式。目前用于训练ML方法的开源数据集在内容和传感模式方面都不能充分反映陆军感兴趣的场景和情况。目前正在推动使用合成数据来弥补与未来军事多域作战相关的真实世界训练数据的不足。然而，目前还没有系统的合成数据生成方法，能够在一定程度上保证在此类数据上训练的ML技术能够改善真实世界的性能。与人工生成人类认为逼真的语音或图像相比，本文为ML生成有效合成数据提出了更深层次的问题。

1 引言

人工智能（AI）是美国国防现代化的优先事项。美国国防部的人工智能战略指示该部门加快采用人工智能并创建一支适合时代的部队。因此，它自然也是陆军现代化的优先事项。从陆军多域作战（MDO）的角度来看，人工智能是解决问题的重要因素，而MDO是建立在与对手交战的分层对峙基础上的。虽然人工智能本身没有一个简明和普遍接受的定义，但国防部人工智能战略文件将其称为 "机器执行通常需要人类智能的任务的能力--例如，识别模式、从经验中学习、得出结论、进行预测或采取行动--无论是以数字方式还是作为自主物理系统背后的智能软件"。这句话的意思是，当机器在没有人类帮助的情况下独立完成这些任务时，它就表现出了智能。过去十年中出现的人工智能解决方案的一个重要方面是，它们绝大多数都符合模式识别模式；在大多数情况下，它们根据经过训练的人工神经网络（ANN）对相同输入数据的输出结果，将输入数据分配到数据类别中。具体来说，深度学习神经网络（DNN）由多层人工神经元和连接权重组成，最初在已知类别的大量数据上进行训练以确定权重，然后用于对应用中的实际输入数据进行分类。因此，机器学习（ML），即自动机（这里指DNN）在训练阶段学习模式的过程，一直是一个主导主题。事实上，DNN在计算机视觉领域的成功是商业和政府部门加大对人工智能关注和投资的原因。训练算法和软件开发工具（如tensorflow）的进步、图形处理器（GPU）等计算能力的可用性，以及通过社交媒体等途径获取大量数据，使得深度学习模型在许多应用中得到了快速探索。

在监督学习中，人类专家创建一组样本来训练ML算法，训练数据与实际应用数据的接近程度对人工智能方法的性能起着重要作用。将ML模型应用于军事问题的主要瓶颈是缺乏足够数量的代表性数据来训练这些模型。有人提出使用合成数据作为一种变通办法。合成数据集具有某些优势：

它们带有准确的地面实况。
使用现成的模拟产品可轻松生成大量各种类型的数据。
它们在程序上的障碍较少，例如，生物识别数据需要获得机构审查委员会的许可。

然而，最关键的问题是在合成数据或混合合成和真实数据上训练ML模型是否能使这些模型在真实数据上表现良好。美国陆军作战能力发展司令部陆军研究实验室的研究人员和合作者使用合成生成的人类视频进行机器人手势识别所获得的初步结果表明，在合成数据和真实数据混合的基础上进行训练可以提高ML手势识别器的性能。然而，并没有普遍或分类的结果表明，当全部或部分使用合成数据进行训练时，真实世界的ML性能会得到一致的提高。因此，有必要进行系统调查，以确定使用合成数据训练ML方法的可信度。我们有理由假设，合成数据在提高ML性能方面的有效性将受到实际应用领域、合成数据与真实数据的保真度、训练机制以及ML方法本身等因素的影响。合成数据与真实数据的保真度反过来又取决于数据合成方法，并提出了通过适当指标评估保真度的问题。以图像为例，合成数据训练的ML方法的性能与人类视觉感知的真实场景的保真度是否成正比并不清楚。有可能数据的一些关键特征对于ML的性能比那些影响人类感知的特征更为重要。组织这次陆军科学规划和战略会议（ASPSM）的一个主要目的是让合成数据生成、人工智能和机器学习（AI & ML）以及人类感知方面的顶尖学术界和国防部专家讨论这些问题。会议的技术重点主要是图像和视频数据，反映了组织者在计算机视觉和场景感知方面的任务领域。

2 组织

根据上一节提出的问题，会议围绕三个主题展开：

1.人类的学习和概括：人类可以从最小的抽象和描述概括到复杂的对象。例如，在许多情况下，观察一个物体的卡通图像或线描，就足以让人类在真实场景中识别出实际的三维物体，尽管后者比卡通图像或线描具有更复杂的属性。这远远超出了当前人工智能和ML系统的能力。如果能够开发出这种能力，将大大减轻数据合成机器的负担，确保真实数据的所有属性都严格保真。这个例子也说明了一个事实，即用于训练ML模型的合成数据生成研究与提高ML模型本身的能力密切相关。因此，这项研究的重点是探索人类和动物的学习，以启发ML和数据合成的新方法。

2.数据合成方法和验证：大多数应用ML方法的领域都有针对其领域的数据合成技术和工具。游戏平台提供了一个流行的视频合成商业范例。问题是如何评估特定领域中不同合成方法的性能。显然，我们必须确定执行此类评估的指标或标准。通常情况下，合成工具的作者也会就工具的性能或功效发表声明。验证将是评估此类声明的过程。本研究的目的是探讨指导合成和验证过程的原则。合成技术的例子包括基于计算机图形的渲染器（如电影中使用的）、基于物理的模拟（如红外图像）和生成模型（目前倾向于基于神经网络）。

3.领域适应挑战： ML中的领域适应是指使用一个领域（称为源领域）的数据训练ML模型，然后将ML应用于不同但相关领域（称为目标领域）的数据。例如，使用主要为民用车辆的源图像数据集训练识别车辆的ML算法，然后使用训练好的算法识别主要为军用车辆的目标数据集中的车辆。在使用合成数据进行训练时，它们通常构成源域，而实际应用数据则是目标域。本次会议的重点是确定和讨论有效领域适应中的关键问题和挑战。

ASPSM的审议分四次会议进行。第一天的两场会议讨论了前两个主题。第二天的第一场会议讨论第三个主题，第二场会议在三个主题下进行分组讨论。ASPSM两天的日程安排分别如图1和图2所示。从图中可以看出，每个主题会议首先由该领域的学术专家进行40分钟的主讲，然后由大学专家进行两个20分钟的讲座。随后由来自学术界和国防部的专家组成的小组进行讨论。最后一个环节是分组讨论，与会者可以讨论与主题相关的各个方面。

3 口头报告和小组讨论

麻省理工学院电子工程与计算机科学系的Antonio Torralba教授在第一分会场发表了关于人类学习与泛化的主题演讲。他的演讲题目是 "从视觉、触觉和听觉中学习"，深入探讨了深度学习方法如何在不使用大量标注训练数据的情况下发现有意义的场景表征。举例说明了他们的DNN如何在视觉场景和环境中的声音之间建立联系。读者可参阅Aytar等人关于这一主题的代表性文章。

同样来自麻省理工学院的James DiCarlo博士的下一个演讲题目是 "视觉智能逆向工程"。他将 "逆向工程 "定义为根据对行为的观察和对输入的反应推断大脑的内部过程，将 "正向工程 "定义为创建ANN模型，以便在相同输入的情况下产生相应的行为。他的研究小组的一个目标是建立神经认知任务的性能基准，人类或其他灵长类动物以及ML模型可以同时达到这些基准。他的演讲展示了大脑处理模型如何适应ANN实现的初步结果，并提出了ANN通过结合这些适应密切模拟人类行为，进而准确描述大脑功能的理由。

第一场会议的第三场讲座由加州大学伯克利分校的Jitendra Malik教授主讲，题为 "图灵的婴儿"。这个题目也许是指最早的电子存储程序计算机之一，绰号 "宝贝"，其创造者之一受到了阿兰-图灵的启发。马利克教授首先引用了图灵的观点：与其创建一个模拟成人思维的程序，不如从模拟儿童思维开始。从本质上讲，这意味着创造一种人工智能，通过与环境互动以及向其他人工智能和人类学习来学习和成长。这被称为具身机器智能。马利克教授认为，监督学习本质上是处理静态数据集，因此显示了在精心策划的时间点上运行的非实体智能。具体而言，他认为监督训练方法不适合创建能够提供人类水平的世界理解，特别是人类行为理解的人工智能。Malik教授介绍了 "Habitat"，这是一个由他和他的合作者开发的平台，用于嵌入式人工智能的研究。在随后的小组讨论中，与会人员讨论了演讲者所涉及的主题，以及与机器人学习和当前儿童智力发展模型相关的主题。

第二部分“数据合成:方法和验证”以一个题为“学习生成还是生成学习?”，作者是斯坦福大学的Leonidas gu教授。在研究用于训练ML的合成数据生成的动机中，他指出可以减轻大量人工注释训练数据的负担。他的前提是，无论合成数据是用于训练ML还是供人类使用，其生成效率和真实性都非常重要。不过，他表示其他质量指标还没有得到很好的定义，需要进一步研究。他举例说明了在混合合成数据和真实数据上训练ML时，ML的物体识别性能有所提高，但他也承认很难得出可推广的结论。

卡内基梅隆大学的Jessica Hodgins博士发表了第二场会议的第二个演讲，题为 "生成和使用合成数据进行训练"。演讲展示了她的研究小组生成的精细合成场景。利用从真实场景到合成场景的风格转移过程，她的研究小组创造了一些实例，说明在混合了大量风格适应的合成数据和一些真实数据的基础上进行训练的ML方法的性能优于仅在真实数据集或仅在合成数据集上进行训练的方法。性能提高的原因在于风格转移克服了合成数据集与真实数据集之间的 "分布差距"。

第二场会议的最后一场讲座由加州大学伯克利分校的Trevor Darrell教授主讲。他的演讲题为 "生成、增强和调整复杂场景"，分为三个部分。第一部分详细介绍了演讲者及其核心研究人员开发的一种名为 "语义瓶颈场景生成 "的技术，用于根据地面实况标签合成场景。该技术可进一步与通过生成过程生成此类地面标签的模型相结合。Azadi等人对该技术进行了详细描述。第二部分涉及增强和自我监督学习。发言人提出，当前的对比学习方法在合成增强数据时建立了不变量，而这些不变量可能是有益的，也可能是无益的。例如，建立旋转不变性可能有利于识别场景中的花朵，但可能会阻碍对特定方向物体的有效识别。演讲者介绍了他的研究小组考虑具有特定不变性的多种学习路径的方法，并展示了与现有技术相比性能有所提高的结果。第三部分介绍了一种名为 "Tent"（测试熵）的技术。其前提是DNN应用过程中遇到的数据分布可能与训练数据不同，从而导致性能下降。因此，需要对DNN参数进行实时或测试时调整，以防止性能下降。Tent技术通过调整权重使DNN输出的测量熵最小化来实现这一目标。演讲者随后用常用数据集展示了该技术相对于先前方法的改进性能。随后的小组讨论涉及合成方面的挑战，尤其是红外图像方面的挑战。

第二天的第三场会议以 "领域转移的挑战 "开始。约翰霍普金斯大学布隆伯格特聘教授Rama Chellappa博士发表了题为 "解决美国防部实际问题的综合数据期望与最大化"的演讲。演讲首先回顾了过去二十年来国防部处理合成图像的多个项目的历史。他提出了一个重要论断，即如果在合成过程中考虑到真实数据的物理特性，那么真实数据和合成数据之间的领域转换就会减少。Chellappa教授还就领域自适应表示法提供了快速教程，涵盖了正规数学方法以及较新的生成对抗网络（GANs）。演讲者及其核心研究人员开发的基于GAN的方法可以修改合成数据的分布，使之与目标分布相匹配。讲座举例说明了这种方法优于之前的非GAN方法。

佐治亚理工学院的Judy Hoffman教授发表了题为 "从多个数据源进行泛化的挑战 "的演讲。她考虑的问题是在模拟中学习模型，然后将模型应用于现实世界。她指出了四个挑战：生成、列举、泛化和适应。发言人介绍了应对这些挑战的几种不同方法。具体来说，用于泛化的特定领域掩码（DMG）方法通过平衡特定领域和领域不变特征表征来生成一个能够提供有效领域泛化的单一模型，从而解决多源领域学习问题。

第三场会议的第三位也是最后一位演讲者是波士顿大学的Kate Saenko教授，他的演讲题目是 "图像分类和分割的Sim2Real领域转移的最新进展和挑战"。Saenko教授延续了前两场讲座的主题，介绍了视觉领域适应的历史，并探讨了领域和数据集偏差问题。在纠正数据集偏差的不同方法中，讲座详细讨论了领域适应。特别重要的是，Saenko教授及其合作者开发的技术能够显示合成到真实的适应性，就像从游戏引擎到真实数据一样。随后的小组讨论提出了几个有趣的问题，包括训练域和测试域的不同，不是感兴趣的对象不同，而是对象所处的环境不同，例如训练时军用车辆在沙漠环境中，而测试时则在热带植被背景中。

4 分组讨论

三个主题的分组讨论同时进行。在 "人类学习与泛化 "分组讨论中，首先讨论了 "人类如何学习？"、"ML模型如何模仿人类过程？"以及 "合成数据如何实现这些过程？"等问题。从童年到青春期和成年期，学习和成长之间的关系成为关键点。其他被认为有助于人类学习的因素包括人类心理、情感、同时参与多维活动、记忆以及解除学习的能力。

关于 "数据综合：方法与验证 "分论坛确定了数据合成的几个问题，特别是图像和视频。主要问题涉及结合物理学的有用性、视觉外观保真度与成本之间的权衡、保真度的衡量标准、保真度本身的重要性以及当前技术（包括GANs技术）的局限性。据观察，合成图像和视频生成至少已有几十年的历史，但大多数产品要么是为视觉效果而设计，要么是为再现物理测量而设计（例如，红外模拟中的辐射剖面）。它们并不适合用于ML培训。提出的另一个问题是，合成的二维图像必须与物体和环境的底层三维几何图形保持一致。还有人提出，能够在特定的感兴趣的环境中生成大量合成数据，可以作为第一道工序测试新的人工智能和ML方法，而不管这些方法是否能够在真实数据中很好地工作。

专题3 "领域转移挑战 "的分组讨论确定了MDO所需的关键人工智能能力，即从孤立学习到机器与人类之间的联合或协作学习。会议还讨论了在多种数据模式下同时训练ML的联合学习。人们认识到，这些领域的工作才刚刚开始。分组讨论的牵头人强调，需要向士兵明确说明基于人工智能的系统在特定情况下将会做什么。这引发了对系统鲁棒性的讨论。分组组长向ASPSM听众提供了讨论摘要。

5 差距和建议

根据本次ASPSM的讨论，我们确定了以下值得陆军进一步进行科技投资的领域：

1.支持多模式互动学习的合成技术和数据集。与当前流行的捕捉 "时间瞬间 "的静态数据集（如农村环境中的车辆图像）相比，有必要开发更能代表支持持续学习的体现性体验的模拟器，就像我们在人类身上看到的那样，并实现对世界更丰富的表征。混合方法（如增强现实）也可将人类监督的优势与合成环境的灵活性结合起来。

2.学习和合成因果关系和层次关系的算法和架构。最近的一些方法，如基于图的卷积神经网络，已经在学习空间和时间的层次关系（如物体-部件和因果关系）方面显示出前景。鉴于在现实世界中收集和注释此类数据的复杂性，合成数据的生成可能特别有用。识别层次关系是一般国防部和战场情报分析的关键要素。

3.支持持续、增量、多模态学习的算法和架构。深度强化学习方法被成功地用于训练虚拟或机器人代理的相关行动策略，如捕食者与猎物之间的相互作用。基于模仿的方法承认学习的社会性，通常让代理与（通常是人类）教师合作学习新策略。这些类型的交互式持续学习可进一步与多模态学习（即融合来自多个传感器的数据）相结合，以实现更丰富的世界表征，使其更稳健、更具通用性。同样，在这一领域难以获得大量经过整理的数据，这也为探索合成引擎提供了动力。

4.学习物理或具备相关物理领域知识的算法和架构。在许多领域（例如红外光下的物体感知），从图像感知和合成图像需要了解世界的基本物理特性，例如光与材料之间的相互作用。然而，当前的深度学习模型缺乏这种物理知识。开发赋予ML物理领域知识的技术对这些系统的性能至关重要。

5.具有丰富中间表征的领域适应技术。为了缩小真实数据和合成数据之间的领域差距，必须进一步推动当前建立领域不变中间表征的趋势，特别是使用语义词典和生成式对抗网络。能够理解数据底层结构（如光照、旋转、颜色）的表征更有可能成功抽象出合成数据中不重要的细节。

6.深入了解ML模型内部表征的方法，以及合成表征与真实表征的比较。网络剖析技术 "打开 "了深度学习模型的隐藏层，允许解释网络中的每个阶段正在学习哪些特定概念或其更细的方面。这些技术揭示了具有真实输入和合成输入的DNN的内部表征，有助于识别所学内容的关键差异，从而找到克服这些差异的解决方案。

6 结论

为期两天的虚拟ASPSM吸引了众多美国防部科学家和工程师、顶尖学术专家以及科技项目管理人员的热情参与。多学科的讨论强化了这样一种观点，即开发用于训练ML方法的生成合成数据的改进方法与理解和改进ML方法本身是分不开的。一个特别重要的需求是了解ML方法，尤其是当前的学习架构，是如何创建场景的内部表示的。另外两个重要领域是：1）理解人类学习与ML世界中可能存在的学习之间的异同；2）多模态数据--从合成和ML的角度。我们预计近期国防部和学术研究人员将在本报告确定的领域加强合作。

成为VIP会员查看完整内容