目标检测数据标注成本高怎么破？主动学习的自适应监督框架

2019 年 10 月 11 日 AI科技评论

作者 | BBuf
单位 | 北京鼎汉技术有限公司算法工程师(CV)
编辑 | 唐里

下面要介绍的论文发表于BMVC2019，题为「An Adaptive Supervision Framework for Active Learning in Object Detection」，论文提出一个在目标检测中主动学习的自适应框架，在保证目标检测性能的同时大大节省了训练目标检测器的数据标注成本。

论文地址：https://arxiv.org/abs/1908.02454。

计算机视觉中的主动学习方法通常涉及查询数据的强标签。但是，先前的工作表明，弱监督可以有效地训练视觉任务模型，同时大大降低注释成本。利用这些认知，作者提出了一种主动学习的自适应监督框架，并证明了其在目标检测任务中的有效性。作者首先查询弱标签并优化模型，而不是直接查询信息量最大的边界框注释（强标签）。使用切换条件，可以提高模型所需的监督级别。这个框架几乎不需要更改模型架构。实验表明，和用于目标检测的最新主动学习方法相比，该框架可用于训练良好的泛化性强的模型，且标注成本要低得多。

1. 研究背景

深度神经网络在计算机视觉任务（例如目标检测和语义分割）中的state-of-art已通过完全监督的学习方法得以实现，然而这些方法需要大量的强注释数据。本文中着重于训练有效的物体检测器，同时最大程度地减少标注工作量。已经有一些方法表明主动学习可以有效减少图像分类的标注数据需求。但是尝试使用主动学习来做目标检测的方法确很少。在已有的方法中，要求数据库为最有效的图像数据集提供准确的边界框标签，这些图像是由特定的方法选择的。在这篇论文中，作者提出了一种非常有效的利用弱监督来主动检测目标的方法。

近年来，弱监督学习的重要性已显著提高。一方面，使用图像级标签，对象中心点击并回答是否问题，可以用较低的标签预算实现所需的泛化性能。另一方面，主动学习是一组方法，其中模型针对给定数据集信息最有效的子集系统地查询标签。据作者表示，到目前为止，还没有任何可以利用弱监督学习来提高主动学习表现的方法。弱监督学习的重点是通过更廉价的标记方法来学习，而主动学习的重点是在完全监督下减少标记所需的样本数量。这两类方法在减少标记成本的方法上有所不同。作者提出将弱监督和主动学习相结合可以大大节省标记成本，因为可以优化标注数据质量和标注数据的规模。作者使用基于标准池的主动学习方法，但不是查询强边界框注释（这很费时），而是先查询较弱形式的注释，并且仅在需要时查询边界框标签。作者提出了弱监督和强监督可以如何交错方面的变体，以显示此方法的灵活性。Figure1显示了本文框架的概述。作者在标准数据集（例如PASCAL VOC 2007和VOC 2012）以及在农业数据集中验证了这个方法，同时本方法可以大大节约标注成本。

Figure 1

Figure1(a)表示基于标准池的主动学习框架。(b)是作者提出的框架，在主动学习中交错弱监督。这个框架包含一个自适应监督模块，该模块允许在训练模型时根据需要切换到更强大的监督形式。

2. 相关工作

以往为减少用于训练目标检测标注数据成本的方法大概有两种：弱监督和主动学习。弱监督着重减少每个标签的标注工作量，但由于监督不精确导致性能较低。主动学习的方法侧重于选择合适的图像数据以迭代方式查询标签，但在每次迭代中都需要完全监督的标签。

2.1 弱监督

图像级标签，即是图像中存在的目标的类别名，是目标检测中最常见弱监督形式。在弱监督目标检测(WSOL)方面已经有一些研究成果，其目的是在仅提供图像级标签的图像中定位目标。但是，在图像级别标签上训练的模型无法达到使用完全监督的同类模型的精度。最近，一些替代原始标注的方法被提出，例如中心点击，目标边界点击，边界框验证，这些方法为节省标注时间带来了希望。然而，弱监督学习迄今尚未将主动学习纳入其训练方法。

2.2 主动学习

这是用最有效的样本来训练模型的一类技术。主动学习在图像分类中被证明是非常有效的。在深度网络环境中，将主动学习应用到目标检测的例子是相对较少的。现在已经提出的有主动选择度量，基于卷积层的余量采样和1-vs-2余量采样等方法。但是，这些方法要求在主动学习过程中进行强监督。在本工作中，通过引入自适应监督框架来进行目标检测，从而充分利用这两种方法的优势。与早期的方法相比，本框架允许在弱监督和强监督之间进行切换，以节省大量的标注成本。

3. 方法

3.1 概述

Figure1 a展示了用于目标检测的基于标准池的主动学习(PBAL)设置，在该设置中，为每次查询到的一批图像进行边界框标注，从而更新目标检测器。在作者提出的方法中，首先查询弱标签，然后生成伪标签来训练模型，而不是直接查询耗时的边框注释。其次，作者引入了自适应监督模块可以在需要的时候切换到强监督。作者介绍了监督切换的两种变体，即硬切换和软切换。硬切换使模型在训练过程的某个阶段永久切换到更强的监督形式，并在切换之后的框架简化为标准PBAL设置(Figure1 a)。想比之下，软切换允许模型在整个训练过程的每一个主动学习情景中查询两种形式的监督信息。基于切换标准，在给定一组主动选择的图像后，模型要求对某些图像进行弱监督，而对其他图像进行强监督。自适应监督模块节省了大量的数据标注时间。

3.2 主动学习设置

首先，作者考虑一个深度目标监测模型如Faster RCNN和一个最初未标记的数据集D。本文目标是在给定标注预算B下最大化模型性能。与其他主动学习设置一样，假设我们要查询D的初始子集(随机挑选)以获取强标签，并生成带有标签的样本池L。剩下的图像构成未标记的池U。作者还考虑了一个弱标记池W，该池最开始是空的。作为主动学习的一种常见做法，作者首先在初始标记池上训练模型M。查询技术的选择是任何主动学习方法的关键点，作者在这项工作中研究了多种标准查询技术，结果证明无论使用哪种查询技术，框架相对于标准PBAL都可以节省数据标注成本。

3.3 标注技术

在框架中有两种类型的标注数据：强标签和弱标签。强标签就是包在目标周围的矩形框，有相关论文报告了在ImageNet上标注目标框的时间，绘制一个框的时间为25.5s，验证其质量的时间为9.0s，检查是否有其他同类对象需要标注的时间为7.8s。因此，最后将34.5s（25.5s + 9.0s）作为在对象周围绘制准确的边界框并为每个带注释的图像添加7.8s的验证时间。弱标签采用中心点击的方式进行标注，就是点击大约在包围目标的虚拟边界框的中心位置。根据相关报告显示，标注某个对象的时间大约为3s。Figure2展示了这两种类型的标注数据。

Figure 2

3.4自适应监督

作者使用自适应监督模块，该模块有助于确定何时从弱监督过渡到强监督。更强的监督方法会占用更多的标注时间，但会为模型提供更多的信息。作者提出监督切换的两种变体，即硬切换和软切换。

3.4.1 硬切换

在硬切换方法中，在某一轮训练结束时根据模型在验证集的表现定义一个切换标准。令代表第n轮和n-1轮的MAP值的差，代表任意连续的两轮间MAP值差的最大值，是选取的一个合适阈值。硬切换标准定义如下：

当上面的值等于1的时候会硬切换到强监督模式，这个时候框架变成标准的PBAL模式。

3.4.2 软切换

在每个主动学习情节中，使用获得的弱标签作为主动选择的批次，然后使用3.5节的伪标记方法对这些被选择的图像生成伪边界框。对于每张图像，获得一个置信度分数c，该分数代表预测图中每个目标得到的平均概率分数。给定所选图像i的置信度和适当选择的阈值，当以下条件满足时执行软切换。换句话说，如果模型对图片中的目标预测的平均置信度低于阈值，将进行图像标签查询以进行强监督。否则，使用模型对图片的预测结果对图像进行伪标记。这很直观，因为只有模型非常不确定其当前边界框预测时才使用强标签，否则使用弱标签进行管理。注意到，此切换是按训练轮次进行的，每个新轮次都是重新开始的，即再次为具有较高置信度的图像寻找弱标签。

3.5 使用弱标签进行伪标记

本文使用一种低成本的伪标记方法来训练带有弱标签数据的目标检测器。本文的方法和直接在弱监督条件下使用复杂的训练方式不一样，首先使用训练好的模型M来预测所有目标的边界框(可能不精确)。然后使用数据库提供的弱标签来过滤和选择每个目标的最佳边界框。在给定弱标记图像中，每个中心点击位置都对应一个目标。对于每个点击位置，用一个中心离该位置最近的边界框来伪标记目标。对于选定的边界框，目标被归类为置信度最高的类别。在计算上，此方法涉及对每张图像进行前向传播然后计算点击位置和预测边界框中心之间的成对距离（2维）。Figure3(a)展示了伪标记策略。最后，使用标记数据（来自L）和伪标记数据（来自W）以端到端的方式重新训练目标检测模型。下面的Algorithm 1总结了这个方法。

Figure 3

4. 结果

这里定义了几个新的概念。Max-Margin Margin代表预测的边界框中第一和第二高类别概率的差，将所有边界框的Margin求和，选择具有最大和的样本。Avg-Entropy 代表选择预测概率分布中具有高熵的样本。Least Confident 代表该图像中的最高边界框概率，选择边界框概率最小的样本。在PASCAL VOC 2007数据集上的表现如下：

在PSACAL VOC 2012的表现如下：

论文还展示了该框架在农业的一个小麦数据集Wheat上的结果：

可以看到，无论是在标准数据集还是在农业数据集上，论文的框架都在标注预算给定的条件下获得了更高的MAP值。

5. 结论

使用本文提出的自适应监督框架，主动学习可以和多个级别的监督学习交织在一起，从而可以显著地节省训练深度神经网络目标检测器的标注成本。仅通过使用目标检测模型的预测输出，本文开发了两种监督切换技术：硬切换和软切换。实验表明，在标准的主动查询技术上，本文的自适应监督方法优于PBAL。作者认为，本工作可能会为弱监督技术与主动学习的融合开辟各种可能性，例如：提出在主动学习中将其他形式的弱监督技术与主动学习结合使用，提出在给定的预算约束下将弱监督与强监督组合为一个优化问题，将主动学习技术与基于数据编程的弱监督技术相结合等等。

数学与 AI「融通」，徐宗本院士进行超强“迁移学习”

张钹院士：人工智能的魅力就是它永远在路上 | CCAI 2019

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

探索无限大的神经网络

点击“阅读原文”查看 如何用TensorLayer做目标检测的数据增强

登录查看更多

相关内容

主动学习

关注 241

主动学习是机器学习（更普遍的说是人工智能）的一个子领域，在统计学领域也叫查询学习、最优实验设计。“学习模块”和“选择策略”是主动学习算法的2个基本且重要的模块。主动学习是“一种学习方法，在这种方法中，学生会主动或体验性地参与学习过程，并且根据学生的参与程度，有不同程度的主动学习。” （Bonwell＆Eison 1991）Bonwell＆Eison（1991）指出：“学生除了被动地听课以外，还从事其他活动。” 在高等教育研究协会（ASHE）的一份报告中，作者讨论了各种促进主动学习的方法。他们引用了一些文献，这些文献表明学生不仅要做听，还必须做更多的事情才能学习。他们必须阅读，写作，讨论并参与解决问题。此过程涉及三个学习领域，即知识，技能和态度（KSA）。这种学习行为分类法可以被认为是“学习过程的目标”。特别是，学生必须从事诸如分析，综合和评估之类的高级思维任务。

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

专知会员服务

69+阅读 · 2020年3月11日

【CVPR2020-UBC】改进小样本学习视觉分类，Few-Shot Visual Classification

专知会员服务

68+阅读 · 2020年2月25日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

185+阅读 · 2020年2月22日