引言

2.1 本报告的目的

本报告记录了我们在 DARPA 终身学习机器 (L2M) 计划下的项目，涵盖了我们在该计划第 1 阶段和第 2 阶段的工作。

2.2 研究方法概述

我们的项目探索了自主系统终身学习的综合方法，解决了不同任务间的持续学习和迁移、可扩展的知识维护、自我导向的学习以及对具身智能体的变化环境的适应等基本问题。我们的L2M方法的关键方面包括：感知和行动的持续学习，不同任务之间的迁移，可扩展的终身知识维护，自主发现的自我导向学习，以及任务的非平稳分布建模。

在第一阶段，我们分别探索了这些方面，为分类和强化学习设置开发了各种终身学习算法。这些开发的算法在个别实验中得到了评估。

在第二阶段，我们开发了一个综合的、模块化的框架，将上述这些方面结合到一个支持分类和强化学习任务的L2M系统中。在第一阶段的算法中，每个方面最有前途的算法被选为该系统中的模块。然后，我们将这个L2M系统（1）应用于约翰霍普金斯应用物理实验室（APL）的MiniGrid终身学习基准；（2）通过使用Matterport 3D的机器人寻宝游戏来整合感知和行动，展示了我们的L2M系统在非结构化环境中快速学习不同任务并迅速适应变化的能力。在第二阶段，我们还继续开发了第一阶段的个别算法，并探索了其他终身学习的个别方法。当这些基本算法在我们的L2M评估中显示出前景时，我们就把它们过渡到L2M系统的模块中。

2.3 本报告组织结构

由于这个项目包含了大量的算法（详见附录A），本报告将在第3.1节中首先关注综合的L2M系统，展示我们如何构建我们的终身学习系统以及它如何支持各个终身学习算法的高层观点。然后，我们将在第3.3-3.4节中介绍我们在第一和第二阶段中开发的主要的单个终身学习算法。我们对结果的介绍也是类似的，首先探讨综合L2M系统在APL MiniGrid（第4.2节）和我们对具身智能体的Scavenger Hunt（第4.3节）的应用中的评价，然后探讨本项目下开发的单个算法的评价（第4.4-4.5节）。

2.4 主要贡献

我们的工作产生了一些主要的贡献，在本节中有所描述。为方便起见，我们将这些贡献按照那些已被纳入综合L2M系统的方法和其他未被纳入的方法进行分组。正如第3.1节所详述的，我们选择算法作为L2M系统的组成部分是基于它们在第一阶段结束时和第二阶段早期的成熟度，以及它们对我们应用的必要性。

2.4.1 集成系统和部件

一个综合的终身学习框架。我们开发了一个模块化的终身学习系统，在现实的服务机器人环境中支持分类和强化学习（RL）任务。该系统的核心是将因子化的终身学习方法与移动机器人的感知动作循环相结合，我们将其分为独立的分类和RL管道。该系统包括额外的可选模块，可以与核心分类和RL管道相结合，包括支持元学习、内在动机、探索、主动视觉映射和课程学习。这些组件可以根据问题领域来启用或禁用，我们讨论了为一个视觉寻宝游戏应用开发和评估的配置实例。

用于终身深度学习的去卷积因子化CNN（DF-CNN）。在非深度多任务和终身学习方面的现有工作表明，使用模型参数空间的因子化表示进行转移是成功的，允许更灵活地构建任务模型。受此启发，我们介绍了一种在卷积神经网络（CNN）中共享潜伏因子化表征的新架构。所提出的方法被称为去卷积因子化CNN[4, 5]，使用去卷积因子化和张量收缩的组合来进行任务间的灵活转移。在两个计算机视觉数据集上的实验表明，DFCNN在具有挑战性的终身学习环境中取得了卓越的性能，抵抗灾难性的遗忘，并表现出反向转移，从随后的经验中改善先前学到的任务，而无需重新训练。与单任务学习者相比，DF-CNN在CIFAR-100和Office-Home任务上分别取得了19.2%和7.9%的改进，击败了其他多任务和终身学习基线。

终身策略梯度：无遗忘的快速训练（LPG-FTW）。策略梯度（PG）方法在学习高维动态系统的控制策略方面已经显示出成功。它们最大的缺点是在产生高性能的策略之前需要大量的探索。在终身学习的环境中，智能体在其一生中会面临多个连续的任务，重用以前看到的任务的信息可以大大加快新任务的学习。我们提供了一种新的终身策略梯度学习方法，通过策略梯度直接训练终身函数近似器，使智能体在整个训练过程中受益于积累的知识。我们的经验表明，我们的算法比单任务和终身学习基线学习得更快，收敛得更好，并完全避免了在各种挑战性领域的灾难性遗忘。在Meta-World任务中，LPG-FTW比在每个任务中单独训练的智能体取得了17.5%的改进，比最接近的终身学习方法改进了533%。

快速适应的元优化器(KFO)。我们开发了一种算法，META-KFO，它能够在不增加模型的建模能力的情况下转换较小模型的梯度，但仍能带来更好的元可学习性。我们在讨论和分析我们提出的META-KFO算法的同时，还简要介绍了各种学习优化的方法。我们推测为什么足够大的深层模型可以进行元学习：上层具有转化底层梯度的同等效果，就好像上层是一个外部元优化器，在一个仅由底层组成的较小的网络上运行。

高效探索和导航的占位预测（OCCANT）。最先进的导航方法利用空间记忆来概括新的环境，但它们的占位图只限于捕捉智能体直接观察到的几何结构。我们开发了占位预测，智能体使用其以自我为中心的RGB-D观察来推断可见区域以外的占位状态。这样一来，智能体就能更迅速地建立起自己的空间意识，这有利于在三维环境中进行有效的探索和导航。通过利用以自我为中心的视图和自上而下的地图中的上下文，我们的模型成功地预测了一个更广泛的环境地图，其性能明显优于强大的基线。我们的主要贡献是 (1)一个新的占有率预测框架，利用来自自我中心RGB(D)视图的语义和几何背景；(2)一个新的探索策略方法，结合占有率预测，以较少的探索获得更完整的地图；(3)成功的导航结果，在苹果对苹果的比较中，包括在归纳到一个不相交的数据集中的环境时，比目前的技术水平有所改善。我们的方法是2020年人居环境点导航挑战赛的获胜作品。

**学习内在奖励的策略梯度方法（LIRPG）**最佳奖励问题[6]旨在学习内在奖励的参数，使所得奖励达到RL智能体的学习动态，使从某些分布中抽取的任务的寿命（外在）回报最大化。我们提出了一种元梯度方法[7, 8]来解决最佳奖励问题。在高层次上，我们在每个生命周期的迭代中抽取一个新的任务和一个新的随机策略参数，并使用具有策略梯度的内在奖励函数模拟智能体的生命周期。同时，我们通过考虑内在奖励对策略参数的影响来计算元梯度，用寿命值函数更新内在奖励函数。通过对内在奖励的分析，我们展示了我们的方法如何鼓励在不确定的情况下进行探索，利用对象之间的因果关系，并考虑到非平稳的奖励。

强化学习的课程策略（CMDP）。强化学习中的课程学习是一种训练方法，旨在通过首先在一系列较简单的任务上进行训练，并将获得的知识转移到目标任务上，从而加快对困难目标任务的学习。自动选择这样的任务序列（即课程）是一个开放的问题，也是该领域最近许多工作的主题。在这个项目中，我们以最近的一种课程设计方法为基础，将课程排序问题表述为马尔科夫决策过程（MDP）。我们对这一模型进行了扩展，以处理多种迁移学习算法，并首次表明可以从经验中学习这一MDP的课程策略[9]。我们探讨了使之成为可能的各种表示方法，并通过在两个不同领域为多个智能体学习课程策略来评估我们的方法。结果表明，我们的方法产生的课程可以训练智能体在目标任务上的执行速度，甚至比现有的方法更快。此外，我们最近的进展表明，这种为一组任务学习的课程策略可以被推广到未见过的新任务集上[10]。

目标关系和分布模型(OBJMAP)。为了帮助定位智能体更有效地解决视觉搜索任务，我们提出在多个环境中对目标-目标的空间关系进行建模。在探索一个环境的时候，一个智能体最好能利用已经看过的目标知识来帮助更快地找到目标物体。我们通过学习不同类别的目标之间的共同发生率统计来解决这个问题，建立一个包含所有看过的目标位置的环境地图，然后结合这些信息来计算目标物体出现在地图上每个位置的概率。

2.4.2 研究方法

组合式终身分类（COMPCLF）和强化学习（COMPRL）。人类智能的一个特点是能够构建自成一体的知识块，并以新颖的组合方式充分重用它们来解决不同但结构相关的问题。由于基础搜索问题的组合性质，学习这种组合结构对人工系统来说是一个重大挑战。到目前为止，对组合式学习的研究在很大程度上与终身学习或持续学习的工作分开进行。我们整合了这两方面的工作，提出了一个通用的框架，用于终身学习可用于解决一系列相关任务的组合结构。我们的框架将学习过程分为两个广泛的阶段：学习如何最好地结合现有的组件以吸收一个新的问题，以及学习如何调整现有的组件集以适应新的问题。这种分离明确地处理了记忆如何解决早期任务所需的稳定性和解决新任务所需的灵活性之间的权衡，正如我们在分类环境的广泛评估中所显示的那样。然后，我们探索了一种基于神经模块的RL的特殊形式的组合，并提出了一组直观地承认组合解决方案的RL问题。从经验上看，我们证明了神经组合确实捕捉到了这个问题空间的基本结构。我们进一步提出了一种组合式终身RL方法，该方法利用积累的神经组件来加速对未来任务的学习，同时通过重放经验的离线RL来保持对以前任务的表现。在持续学习中使用可组合的表征，当任务大规模多样化时，比非模数方法提供了82.5%的相对准确性的性能增益。

用于改进目标检测的视频中的无监督硬例挖掘（DETFLICK）。最近，通过使用专注于硬负面例子的训练目标，即目前被检测器评为正面或模糊的负面例子，在目标检测中获得了重要的收益。当网络被训练来纠正这些例子时，这些例子会强烈影响参数。不幸的是，它们在训练数据中往往是稀疏的，而且获取成本很高。在这项工作中，我们展示了如何通过分析视频序列上经过训练的检测器的输出来自动获得大量的硬性否定。特别是，在时间上孤立的检测，即没有相关的之前或之后的检测，很可能是硬否定句。我们描述了从无标签的视频数据中挖掘大量此类硬阴性（以及硬阳性）的简单程序[11]。我们的实验表明，在这些自动获得的例子上重新训练检测器，往往能显著提高性能。我们介绍了在多个架构和多个数据集上的实验，包括人脸检测、行人检测和其他目标类别。

使用自我训练使目标检测器自动适应新领域（STSL）。这项工作解决了现有的目标检测器在无监督的情况下适应新的目标领域的问题。我们假设这个领域中大量的无标签的视频是现成的。我们通过使用现有检测器的高置信度检测来自动获得目标数据的标签，再加上通过使用跟踪器的时间线索获得的硬（错误分类的）例子。这些自动获得的标签然后被用于重新训练原始模型。我们提出了一个修改过的知识提炼损失，并研究了为目标领域的训练例子分配软标签的几种方法。我们的方法[12]在具有挑战性的人脸和行人检测任务上进行了实证评估：在WIDER-Face上训练的人脸检测器，由从网上抓取的高质量图像组成，适用于大规模的监控数据集；在BDD-100K驾驶数据集的清晰、白天图像上训练的行人检测器，适用于所有其他场景，如雨天、雾天、夜间。我们的结果证明了结合从跟踪中获得的硬例子的有用性，通过蒸馏损失使用软标签相对于硬标签的优势，并显示了作为无监督领域适应目标检测器的简单方法的可喜性能，对超参数的依赖性最小。

一半和一半。研究视觉常识的新任务和基准（HNH）对物体、人、行动和场景类型的一般识别一直是计算机视觉研究的核心重点。然而，现在我们在这些问题上已经取得了一定程度的成功，现在是时候定义新的问题，以刺激我们达到视觉智能的下一个水平。视觉常识的发展对于开发能在动态、新颖环境中发挥作用的智能智能体至关重要。但究竟什么是视觉常识？我们认为，在不直接可见的情况下，对事物可能存在的位置进行智能评估的能力，是人类和其他智能生物共享的关键和普遍的能力，是视觉常识的一个基本组成部分。人类经常表现出在没有明确视觉线索的情况下做出决定的能力。这种 "智能搜索 "是视觉常识的一个突出的例子，我们相信它代表了一种技能，在开发智能体中是必不可少的。与我们的工作密切相关的是早期关于将上下文信息纳入视觉预测的努力[13, 14, 15, 16]。我们相信，以最基本的形式对这种能力进行正式的基准测试可以是一个有价值的补充。在这项工作中，我们将推断图像中我们无法看到的东西的存在这一问题正式化。为了做到这一点，我们依赖于这样一个事实，即一幅图像的不同视图描绘的是同一个场景。因此，个别部分可以作为其他部分的背景线索。由于这个原因，我们把这些任务称为 "一半和一半 "任务[17]。

高效的终身逆向强化学习（ELIRL）。从演示中学习（LfD）的方法在通过模仿用户获得行为策略方面已经显示出成功。然而，即使是单一的任务，LfD也可能需要大量的示范。对于必须通过示范来学习许多任务的多功能智能体，如果每个任务都单独学习，这个过程会给用户带来很大的负担。为了解决这一挑战，我们引入了从演示中终身学习的新问题，这使得智能体能够不断地建立在从以前演示的任务中学到的知识上，以加速新任务的学习，减少所需的演示量。作为这个问题的解决方案之一，我们提出了第一个反向强化学习的终身学习方法，它通过演示来学习连续的任务，不断地在任务之间转移知识以提高性能。在演示的任务之间分享信息导致恢复的奖励函数减少约65%。

使用高级共享特征集（SHELS）的任务无关的终身学习。深度神经网络（DNNs）通常不能在动态开放世界环境中对未见过的类别进行概括，在这种环境中，概念的数量是无限制的。相比之下，人类和动物的学习者有能力通过识别和适应新的观察而逐步更新他们的知识。特别是，人类通过独有的（唯一的）基本特征集来描述概念，这些特征用于识别已知类别和识别新奇事物。受自然学习者的启发，我们开发了一个稀疏的高层-排他性、低层-共享特征表示法（SHELS），它同时鼓励学习排他性的高层特征集和基本的、共享的低层特征。高层特征的排他性使DNN能够自动检测出分布外（OOD）的数据，而通过稀疏的低层特征有效地利用容量，可以容纳新的知识。由此产生的方法使用OOD检测，在没有已知类别边界的情况下进行类别递增的终身学习。我们表明，在各种基准数据集上，使用SHELS进行新颖性检测，在统计上比最先进的OOD检测方法有明显的改进。此外，我们证明了SHELS模型在类增量学习环境中减轻了灾难性的遗忘，使一个结合了新奇性检测和适应性的框架能够支持开放世界环境中的学习。

复合强化学习的基准（CompoSuite）。我们创建了CompoSuite，一个开源的模拟机器人操作基准，用于复合多任务和持续的RL。每个CompoSuite任务要求一个特定的机器人手臂操纵一个单独的物体，以实现任务目标，同时避开一个障碍物。任务的这种组合式定义使CompoSuite具有两个显著的特性。首先，改变机器人/物体/目标/障碍物的元素会导致数以百计的RL任务，其中每个任务都需要有意义的不同行为。其次，RL方法可以专门评估其学习任务组成结构的能力。后者对问题进行功能分解的能力将使智能体识别并利用学习任务之间的共性来处理大量高度多样化的问题。我们对现有的单任务、多任务和组合式学习算法在不同的训练环境中进行评估，并评估它们对未见过的任务进行组合概括的能力。我们的评估暴露了现有RL方法在组合性方面的缺陷，并开辟了新的研究途径。平均而言，单任务和多任务智能体能够解决大约40%的任务，而具有明确组成结构的智能体则在此基础上有所提高，解决了全部基准任务的92%。

用于多智能体强化学习的多智能体-注意力批判（MAAC）。终身学习智能体可能需要在其生命周期内与其他学习智能体合作和/或竞争。传统的强化学习算法无法考虑到其他智能体，并受到其他智能体学习所引起的环境非平稳性问题的影响。最近的多行为体强化学习方法[18, 19]试图通过利用行为体批判范式中的集中批判来解决这些问题；然而，随着存在的行为体数量增加，这些方法不能很好地扩展。我们的方法，即多行为体-注意力批评[20]，将注意力机制纳入集中式批评者，以缓解这一问题。在多智能体领域的实验表明，相对于最先进的基线而言，性能和可扩展性都有所提高。

用于多智能体强化学习的随机实体明智因式分解（REFIL）。在智能体的一生中，它可能需要与具有不同能力/技能的智能体团队合作；然而，在这些智能体的子组中经常出现共同的行为模式。我们提出的方法，即想象学习的随机实体因式分解（REFIL）[21]，试图利用这些共同模式，通过将价值函数随机分解为由不相干的实体子组组成的条款，来提高类似团队的概括性。通过以这种方式构建价值函数预测，我们能够更好地预测熟悉的子组状态的新组合中的预期收益。在复杂的多任务多智能体设置上的实验表明，与最先进的基线相比，样本效率和概括性都有所提高。

解决清道夫服务机器人的随机旅行购买者问题（STPP）。创造能够在人类居住的环境中执行通用服务任务的机器人，一直是人工智能和机器人研究的一个长期的大挑战。与各种任务相关的一个特别有价值的技能是根据要求定位和检索物体的能力。在这项工作中，我们将这种技能建模为 "寻宝游戏"（Scavenger Hunt，SH），该游戏被表述为NP-hard随机旅行购买者问题的一个变种。在这个问题中，目标是尽可能快地找到一组物体，给定它们可能被找到的概率分布。我们在模拟和真实的移动机器人上研究了SH问题的几种解决算法的性能。我们使用强化学习（RL）来训练一个智能体来计划一个最小成本的路径，并表明RL智能体可以胜过一系列启发式算法，实现接近最佳的性能。为了促进对这一问题的研究，我们介绍了一个公开可用的软件栈和相关网站，使用户能够上传寻宝游戏，机器人可以下载、执行并从中学习，以不断提高他们在未来游戏中的表现。

基于模型的贝叶斯探索的终身强化学习（VBLRL）。我们提出了一种终身的RL算法，该算法提取了以前遇到的任务中存在的共同结构，以便智能体能够快速学习新任务的特定动态。我们考虑的终身RL问题可以被建模为隐藏参数MDP或HiP-MDP[22, 23]，其中真实任务动态的变化可以由一组隐藏参数描述。我们的算法比以前的终身学习和HiP-MDPs的工作更进一步：1）在任务集合的不同抽象层次上单独建模认识性和非认识性的不确定性：由描述任务概率分布的世界模型分布捕获的不确定性，以及由单个任务内（随机的）动态的特定任务模型捕获的不确定性。为了实现更准确的顺序知识转移，我们将这两个量的学习过程分开，并保持一个近似于它们的分层贝叶斯后验。2）执行层次化后验所启用的贝叶斯探索。该方法让智能体根据从后验中采样的模型进行优化操作，从而提高采样效率。

关于这些算法的细节将在下一节提供。