【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

Yann LeCun曾说“如果人工智能是一个蛋糕，则蛋糕的主要成分就是无监督学习”。这句话反应了无监督学习在深度学习领域扮演着重要的作用。当前普遍的方法集中在如何设计有效的代理任务来对无标注的输入数据学习到好的视觉表征。在计算机视觉上，目前比较流行的直接有效的方法是对比学习，将训练数据的每个实例当做单一的分类。基于这个实力判别，很多自监督方法在分类任务上得到了有效的提升。他们成功弥补了自监督方法和监督方法的代沟。然而，这项任务仍然具有挑战：

a. 掩码语言模型在自然语言领域得到了广泛的应用。图像是高维特征，多噪声且相比于文本形式复杂。在视觉领域中，图像的主要信息会被随机分到不同的token中，如果这些token被随机masked掉，将会导致很差的表现。这个随机掩码语言模型容易掩盖图像的关键区域的token，这样会导致误判且不适合直接应用于自监督视觉Transformers。

b. 很多自监督方法是利用全局特征学习图像级别预测，对于像素级别预测优化不足。当前自监督学习方法也许对图像分类任务过度拟合，对下游密集任务预测表现效果不好。

https://www.zhuanzhi.ai/paper/51fc329856a3bcd21dfb8545d693e224

针对以上提出的问题，我们提出掩码Transformer自监督学习方法，如下图所示。MST创造性的引入了注意力特征图引导掩码策略并利用掩码特征来恢复全局图像特征任务。我们将介绍如何利用注意力特征引导掩码策略帮助掩码语言模型应用到视觉领域。最后我们将介绍网络的结构和实验细节。

成为VIP会员查看完整内容