用于识别任务的视觉 Transformer 综述

本文总结了视觉 Transformer 处理多种识别任务的百余种代表性方法，并对比分析了不同任务内的模型表现，在此基础上总结了每类任务模型的优点、不足以及面临的挑战。本文根据识别粒度的不同，分别着眼于诸如图像分类、视频分类的基于全局识别的方法，以及目标检测、视觉分割的基于局部识别的方法。考虑到现有方法在三种具体识别任务的广泛流行，本文总结了在人脸识别、动作识别和姿态估计中的方法。同时，也总结了可用于多种视觉任务或领域无关的通用方法的研究现状。基于 Transformer 的模型实现了许多端到端的方法，并不断追求准确率与计算成本的平衡。全局识别任务下的 Transformer 模型对补丁序列切分和标记特征表示进行了探索，局部识别任务下的 Transformer 模型因能够更好地捕获全局信息而取得了较好的表现。在人脸识别和动作识别方面，注意力机制减少了特征表示的误差，可以处理丰富多样的特征。Transformer 可以解决姿态估计中特征错位的问题，有利于改善基于回归的方法性能，还减少了三维估计时深度映射所产生的歧义。大量探索表明了视觉 Transformer 在识别任务中的有效性，并且在特征表示或网络结构等方面的改进有利于提升性能。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?edit_id=20230216101300001&flag=2&file_no=202208300000009&journal_id=jig 计算机视觉(Computer Vision, CV)涉及对图像或视频中有用信息的提取和分析。在所有CV任务中，识别任务占有很大的比重。随着深度学习技术的引入，经典的方法是利用卷积神经网络(Convolutional Neural Network, CNN)来解决此类问题。CNN通过局部感知和参数共享，降低了网络模型的复杂度，并且可以直接将图像数据作为输入，避免了人工提取特征的过程。但由于CNN擅长关注局部特征，难以很好地利用对结果同样十分重要的全局信息，使得该领域的发展受到了一定的阻碍。 Transformer(Vaswani 等，2017)是一个从序列到序列(Sequence to Sequence)的模型，最大特点是抛弃了传统的卷积神经网络和循环神经网络 (Recurrent Neural Network, RNN)，采用注意力机制组成网络，使得模型可以并行化训练，而且能够关注全局信息。Transformer被提出后在自然语言处理 (Natural Language Processing, NLP)领域大放异彩，例如备受关注的基于Transformer的双向编码器表示 (Bidirectional Encoder Representations from Transformers, BERT)模型(Devlin 等，2019)，以及生成式预训练Transformer(Generative Pre-Training, GPT) 系列模型 GPT1(Radford 和 Narasimhan ， 2018)，GPT2(Radford 等，2019)，GPT3(Brown 等， 2020)。这些基于Transformer的模型表现出的强大性能使NLP研究取得了重大突破，同时吸引住了计算机视觉研究人员的目光，他们将Transformer移植到视觉任务中，并发现了其中的巨大潜力。如首次使用纯 Transformer 进行图像识别的方法 Vision Transformer(ViT)(Dosovitskiy 等，2021)，以及解决目标检测问题的Detection Transformer(DETR)模型 (Carion 等，2020)。随着越来越多的视觉Transformer模型被探索出来，关于此研究的综述文章也逐渐出现。按照分类标准的不同，目前的综述文章从不同的角度总结现有的方法，包括输入数据(Han 等，2020)、网络结构(Khan 等，2022)、应用场景(Liu 等，2021f， Liu 和 Lu，2021d，Khan 等，2022)。其中，从应用场景角度进行总结的文章占大多数。Liu 等人 (2021f)分别从计算机视觉领域的三个基础任务(分类、检测、分割)总结现有的方法。除了这三个基础任务外，Liu 和 Lu(2021d)，Khan 等人(2022)又增加了在识别、视频处理、图像增强和生成应用场景下的方法总结。然而，这些不同的应用都是孤立存在的，不能形成一个系统的各种方法的总结。此外，现有的综述文章多关注于视觉Transformer模型与传统的CNN模型结果的比较，对不同Transformer模型间结果的比较分析较少。为了解决以上问题，本文从视觉识别的角度出发，总结比较了视觉Transformer处理多种识别任务的代表性方法。按照识别粒度的不同，可以分为基于全局识别的方法和基于局部识别的方法。基于全局识别的方法，即对视觉数据(图片、视频)整体进行识别，例如图像分类、视频分类。基于局部识别的方法，即对视觉数据中的部分进行识别，例如目标检测等。考虑到现有方法在三种具体识别任务的广泛流行，本文也总结对比了在人脸识别、动作识别和姿态估计三种识别任务的方法。在每类任务下，对不同方法的特点和在公共数据集上的表现进行了对比分析，并进一步总结了该类方法的优点与不足，以及不同识别任务面临的问题与挑战。本文与现有的综述文章对比，具有以下优点： 1)本文从识别的角度分类，可以更系统地将现有方法联系起来；2)虽然一些综述文章(Liu 和 Lu， 2021d，Khan 等，2022)也对识别任务的方法进行了总结，但是涉及的内容不全面，而本文不但对基础识别任务的方法进行了总结，还总结了三种具体识别任务的方法，并且对于每类任务方法，在对比分析公共数据集结果的基础上，总结了其发展现状和不足。综上所述，近年来 CNN 的局限性以及 Transformer研究的突破性使得视觉Transformer已广泛应用于CV领域，而关于视觉Transformer的综述文章还不够丰富，特别是对其应用场景的总结存在着较为孤立的现象。又因流行的CV应用场景大多能够以视觉识别的角度分析，所以本文系统地对用于识别任务的视觉Transformer进行综述具有必要性，同时，本文通过每类任务对应的基准数据集上的实验对比分析，反映各类Transformer模型间的区别与联系也是十分必要的。最后，本综述的出现带来了更系统的总结和更全面的内容，将为相关领域读者快速了解和认识Transformer在视觉识别任务中的应用提供重要帮助。