美国空军研究实验室《概率标签高效的深度生成结构(PLEDGES)》71页重点项目技术报告

2022 年 7 月 14 日 专知

问题描述

机器学习的在商业领域的巨大成功未能转化为高性能的军事应用。尽管深度学习开始在一些特定的军事任务中展现出令人印象深刻的成果，但目前由于需要极其庞大的、有标签的训练集，深度学习能力还未能充分发挥。与商业应用不同，大多数重要的军事应用都有目标对象、事件或未翻译的单词，而这些目标对象、事件或单词往往是新颖的，没有大规模的真实标签。另外，标签的专业知识是有限的，这就禁止了从人群中创建标签数据集。基于军事学习的应用需要新的无监督和半监督学习方法，以实现深度学习系统的性能，但只需要10到100个标签。此外，学习算法必须有效地利用有限的军事专家和训练数据，例如，通过主动识别最具代表性和最不自信的学习实例。最后，用于识别军事目标和活动的学习模型必须具有新的组件重用级别，以通过模型重组进行适应。机器学习应用程序因其庞大的机制而臭名昭著，这些机制很难扩展，并且无法在任务和应用程序之间推广。解决这些挑战需要基本的新思维来超越当前机器学习的局限性，需要在标签高效半监督学习、模型转移和主动学习方面进行必要的创新，以解决现实世界中的军事学习问题。

今天，基于深度神经网络的方法在机器学习的研究中占主导地位。尽管取得了许多成功，但神经网络有几个关键的局限性，包括数据需求量大，渴望数据，需要大量的标记数据。两相对比，这使得概率方法非常有吸引力，它需要的标记数据要少得多。概率模型有利于标签效率的学习，因为与需要基于标签的误差函数的神经网络不同，它们可以使用任何种类的观察，其中可以包括标签，但不依赖于标签。因此，概率模型对半监督学习很有用，因为它们可以从无标签的数据中学习尽可能多的知识，并使用少量的有标签的数据对其进行扩充。它们对模型转移也很有用，因为它们是用有语义的组件来构造的，这些组件可以被组合和重新应用，以便将模型有效地转移到新领域。概率模型还通过提供精心校准的不确定性估计来直接支持主动学习，这是对哪些要进行标记的实例所做知情决策的基础。

事实上，概率模型一直是无监督和半监督学习的主要方法之一，像k-means聚类这样的方法使用得非常广泛。然而，正如这个例子所示，用于无监督学习和半监督学习的概率模型往往很简单；k-means本质上是就是高斯方法的混合物。过去，概率方法的性能落后于神经网络，主要原因是难以将推理和学习的规模扩大到海量的模型中。因此，为了达到美国防部重大应用所需的实际效果，概率模型必须与深度学习方法相结合。

我们预计，我们的努力成果将在有效推断和学习丰富概率模型的能力方面取得革命性进展，使深度概率方法最终成为在非概率深度学习在现实问题中的可行替代方法。这些进步将带来比当前基于神经网络的方法更好的半监督学习、模型转移和主动学习方法。

技术方法

我们在团队最近将概率模型与深度表示相结合的工作基础上进行了改进。我们沿着三个平行的方向前进。

首先，我们为半监督和弱监督的学习开发了深度学习模型的概率模型变体。我们称这些模型为结构化深度概率模型（SDPMs）。这项工作建立在最近的语言创新上，如Edward、Pyro和Probabilistic Torch，后者是由联合创始人JanWillem van de Meent领导。这些框架使用变异方法来训练概率模型，其中神经网络定义了条件分布，将深度学习的灵活性与概率模型的数据效率相结合。使用这些方法的初步工作被证明是非常有效的。在每个类别只有10个标签的情况下，我们使用概率Torch在数据集上取得了超过90%的分类准确率，例如使用美国国家标准与技术研究所（MNIST）的修改数据集进行测试。在此工程中，我们以各种方式扩展了这些方法，以获得明显高于其他概率变异方法的准确性。

对于第二个方向，我们为高容量概率模型寻求高效准确的算法，这些模型反映了最先进的神经网络的结构，同时保持完全概率。该方法基于PI-Avi-Pfeffer最近的工作，该工作表明，通过使用称为可分离信念传播（SBP）的方法编码有关联合分布的信息，任何有向概率模型都可以转换为二级模型，在该模型中，推理是按线性时间进行且准确的。深度学习的成功依赖于这样一个事实，即大多数观察到的数据都存在于一个可以稀疏表示的低维流形上，这为我们提供了强有力的理由，让我们相信，对于现实世界的军事应用来说，二级模型是很小的。因此，使用SBP的高容量概率模型可以实现与神经网络方法类似的可操作性，同时在低标签真实美国防部问题上拥有更好的性能。

对于第三个方向，我们对现有的非概率深度学习方法进行了概率性的重新解释和变体。特别是，我们开发了简单CNAPS算法，这是一种用于少数镜头视觉分类的元学习算法，该算法具有神经特征提取器和概率分类器，并且从具有有限标签的数据中学习。我们还开发了一个简单CNAPS的归纳版本，以及一个用于0-shot/any-shot物体检测的弱监督学习方法。

我们使用在这两个线程下开发的概率模型来提供LwLL的关键组成部分：半监督学习、模型转移和主动学习。半监督学习的成功依赖于在没有标签的情况下学习有关领域的大部分知识，只剩下少量参数需要从标签数据中学习。概率模型自然适合于半监督学习，因为丰富、高度结构化的模型可以单独从未标记的数据中学习。该模型可以是一个具有多个参数的复杂网络，这些参数可以从大量未标记数据中精确拟合，然后通过具有少量参数的薄标记层进行扩展，以从少数实例中学习。我们通过成对学习来增强这一洞察力，在这种学习中，我们比较和对比不同的数据实例，以了解它们的比较标签，即使它们本身没有标签。与类标签相比，成对比较噪音更小，信息更丰富，因此可以更好地利用稀疏标签。在最初的工作中，我们确定，通过合并比较，我们可以在只有80个样本的数据集上训练和优化具有5974577个参数的神经网络。

对于模型传输，概率方法允许我们组合语义上有意义的模型组件，并将其重新应用于新情况。我们在这一见解的基础上提出了一些切实可行的想法。非参数方法通过识别不属于任何已知类的相似实例簇，使我们能够识别新的对象类，即使该类的标记实例为零。概率零点学习方法还使我们能够使用辅助信息来识别没有标记实例的类的实例。重新编程方法使我们能够通过在应用程序之间映射概念，例如输入、输出和概念的内部表示，将原始模型转移到新的应用程序。

对于主动学习，我们使用了一种基于概率模型的决策理论方法。现有的大多数主动学习工作有两个目标：挑选最不自信的实例，以及挑选最有代表性的实例。虽然对于可以直接定义相似性度量的简单任务，已经实现了将这些目标结合在一起，但对于大多数实际应用来说，相似性度量并不容易获得。我们基于数据重要性的概念开发了一种新的主动学习方法，并将这些方法与SDPM相结合。

技术目标

查尔斯河分析公司（Charles River Analytics）与东北大学、不列颠哥伦比亚大学（UBC）和加利福尼亚大学欧文分校（UCI）的合作者一起，开发了概率标签高效深度生成结构（PLEDGES），用于少标签学习（LwLL）。我们在概率建模和深度学习的结合点上进行了开创性的研究。与需要使用基于标签的误差函数的神经网络不同，概率模型可以使用任何种类的观察，它可以包括标签，但不依赖于标签。我们开发了结构化深度概率模型（SDPMs），它在无标签的数据观测上定义了结构化和无联系的联合概率分布；开发了可操作的大容量概率模型，它能在大型网络上进行快速和准确的推理；开发了概率的重新解释和神经算法的变体。

我们对SDPMs的研究目标有三条线。首先，对于半监督学习来说，SDPM提供了类似于神经的表征，能够在从少数标签中学习的同时拥有与最先进的神经方法相媲美的性能。因此，SDPM是半监督学习的理想选择，因为它们可以从未标记的数据中学习尽可能多的知识，并使用少量的标记数据来增强这些知识。第二，要把学到的知识从一个模型转移到一个有少量标签的新模型，SDPM也是模型转移的理想选择，因为它们的结构是使用有语义的组件，这些组件可以被组合和重新应用，把模型有效地转移到新领域。第三，对于学习系统可以对数据提出问题的主动学习来说，概率模型也直接支持主动学习，因为它提供了经过良好校准的不确定性估计，这是决定对哪些实例进行标记的基础。