图像分类是指给定一组各自被标记为单一类别的图像,然后对一组新的测试图像的类别进行预测,并测量预测的准确性结果。

VIP内容

最近,自监督学习方法在计算机视觉领域获得了越来越多的关注。在自然语言处理(NLP)中,自监督学习和transformer已经是选择的方法。最近的文献表明,transformers或某种协同监督(例如在教师网络方面)进行预训练时效果很好。这些监督的预训练的视觉变换器在下游任务获得了了非常好的结果,而只需要较小的模型改变。

在本研究中,我们探讨了自监督学习在图像/视觉变换器的预训练,然后将其用于下游分类任务的优点。我们提出了自监督视觉变形器(SiT),并讨论了几种自监督训练机制来获得前置模型。SiT的架构灵活性允许我们将其用作自动编码器,并无缝地处理多个自监督任务。我们表明,预训练的SiT可以被微调用于小规模数据集的下游分类任务,这些数据集由几千张而不是几百万张图像组成。

在通用协议的标准数据集上对所提出的方法进行了评估。实验结果证明了该方法的有效性和自监督学习的可行性。我们大大超过了现有的自监督学习方法。我们还观察到,SiT对少样本学习很好,也表明它通过简单地在从SiT学习到的特征之上训练线性分类器来学习有用的表示。预训练、调优和评估代码将在以下链接中提供: https://github.com/Sara-Ahmed/SiT。

引言

最近的趋势表明,自监督预训练可以显著提高下游任务[4]、[5]的表现性能。在语音识别[6]和计算机视觉应用[7]、[8]、[9]、[10]中也观察到类似的趋势。如BERT[4]、[5]所示,自监督预训练,特别是结合transformers [11],是自然语言处理(NLP)的选择模型。自监督学习的成功是以大量数据集和大容量模型为代价的,例如,基于NLP的变换器是根据数千亿单词组成的带有数十亿参数[5]的模型进行训练的。最近在图像分类中取得成功的transformers[1]引起了计算机视觉界的极大兴趣。然而,视觉transformer的预训练主要是针对非常大规模的有监督学习数据集进行研究,例如,由数亿个标记样本[1]组成的数据集。最近,在没有外部数据[2]的情况下,视觉转换器在imagenet上表现良好,但是,它们需要CNNs对等体的蒸馏方法和指导。简而言之,利用大规模监督数据集进行预训练是计算机视觉中的一种规范,用来训练深度神经网络以获得更好的性能。然而,人工标注训练数据是相当昂贵的,尽管在众包创新方面取得了进展。为了解决这一限制,自监督学习方法[7],[9],[10],[12],[13],[14]已被用到从未标记数据构建具有语义意义的图像表示。

自监督方法大致可以分为生成式和判别性方法。生成式方法[15],[16],[17]学习建模数据的分布。然而,数据建模通常在计算上是昂贵的,并且在所有场景中可能不是表示学习所必需的。另一方面,通常在对比学习框架[8]、[18]、[19]、[20]或使用文本前任务[21]、[22]、[23]中实现的判别方法,证明了在适当的计算需求下获得更好的泛化表示的能力。

对比学习的主要重点是学习对同一图像的不同增广视图不变的图像嵌入,同时对不同的图像进行区分。尽管对比学习方法取得了令人印象深刻的结果,但他们往往忽视了对语境表征的学习,对于这一学习,替代的前置任务,如基于重构的方法,可能更适合。近年来,文献中提出了一系列新颖的前置任务,包括修复斑块[24]、着色[21]、[25]、[26]、相对斑块位置[21]0、拼图解决[27]、[28]、交叉信道预测[29]、噪声预测[30]、图像旋转预测[22]、斑点伪影预测[23]等。

在这项工作中,我们介绍了一个简单的自监督学习框架,利用对比学习和前置方法的优势。本研究的主要贡献和发现总结如下:

  • 我们提出了一种新的视觉表示的自监督学习方法——自监督视觉Transformer(SiT)。

  • 我们赋予SiT体系结构一个解码器,并证明,由于Transformer的内在特性,它基本上可以通过使用一个线性层来实现。这种基于Transformer的自动编码器避免了通常在基于CNN的编码器-解码器架构中出现的对整个解码器块的需要。

  • 利用自编码Transformer支持多任务学习的自然能力,我们开发了一个强大的自监督框架,共同优化重建(图像修复)、旋转分类和收缩损失。

  • 我们在不同的评估协议(包括线性评估、领域转移和微调)下,在标准基准上展示了拟议框架的有效性。

  • 在不同的数据集中,我们比并发的最先进的结果表现更好,在很大的间隔达到+13.53%的改进。

成为VIP会员查看完整内容
0
26
Top