最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）- 专知

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

【导读】为了更好的模型性能，大规模标注数据被广泛的应用于神经网络的训练过程中，以便在计算机视觉应用中获得更好的视觉特征。为了避免搜集、标注大规模数据集时的额外开销，自监督学习方法被提出来，帮助模型从大规模无标签数据中获得更加通用的图像于视频特征。这篇文章提供了一个基于深度学习自监督方法的通用视觉特征学习方法，帮助研究人员了解该领域最新进展。

介绍：

由于多级视觉特征的广泛应用价值，深度神经网络已经在许多计算机视觉任务中，作为一种基础结构而存在，例如目标检测、语义分割、图像描述等。从大规模数据集（如ImageNet等）中训练得出的模型，被广泛的作为预训练模型使用，进而根据特定任务，进行模型fine-tuned。导致这一现象的原因有两个：1、从大规模数据集中获取的参数是为模型提供了一个非常高质量的起始点，因而，网络可以更快的收敛；2、网络已经从大规模数据集上学习到了层次特征，特别是当特定任务数据集过小，或者是训练标签缺乏的情况下，可以有效减少其他任务训练过程中的过拟合问题。

深度卷积神经网络的性能依赖于学习能力与训练数据，因为越来越多的网络架构（如AlexNet、VGG、GoogleNet、ResNet与DenseNet）与训练数据集（如ImageNet、OpenImage等）被开发出来。随之而来的是卷积网络性能的大幅度提升。

但是，数据集的收集与标注是非常耗时且昂贵的。作为一个广泛应用的数据集，ImageNet包含13亿标注图片，涵盖1000类标签，均为人工标注。与图像数据相比，图像数据集的标注过程，更加的昂贵。用于人类动作识别任务的Kinetics数据集中，包含了50000条10秒左右的视频，涵盖600个类别标签。这一数据的标注，花费了许多亚马逊Turk工人非常多的时间。

许多自监督方法被提出来，以避免耗时耗力的数据标注过程。为了从无标签数据中学习视觉特征，一中流行的方案是根据网络要解决的多种pretext任务，并通过训练pretext任务的过程，来学习各类特征。如colorizing grayscale images，image inpainting，image jigsaw puzzle等。pretext任务共享了2个通用特点：图像与视频特征通过卷积神经网络捕获特征，以解决pretext任务；2、在这一过程中，会自动生成图像或视频的伪标签。