VALSE 论文速览第43期：AOT for Video Object Segmentation

2022 年 1 月 22 日 VALSE

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展，VALSE最新推出了《论文速览》栏目，将在每周发布一至两篇顶会顶刊论文的录制视频，对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自浙江大学与北京交通大学合作的半监督视频目标分割方面的工作，该工作由浙江大学杨易教授与北京交通大学魏云超教授指导，论文第一作者浙江大学博士后研究员杨宗鑫录制。

论文题目：Associating Objects with Transformers for Video Object Segmentation

作者列表：杨宗鑫 (浙江大学)，魏云超 (北京交通大学)，杨易 (浙江大学)

B站观看网址：

https://www.bilibili.com/video/BV1Qq4y1c7i8/

复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。

论文摘要：

这篇工作主要探索了如何在富有挑战性的多目标场景下实现更高效的特征学习以解决半监督视频目标分割 (VOS)任务。当前的VOS方法多聚焦于学习单个指定目标的特征，因而在多目标场景下需要独立地匹配与分割各个目标，这种方式会消耗多倍的单目标计算资源。为了解决这个问题，我们提出Associating Objects with Transformers (AOT)方法来统一地匹配与解码多个目标。具体地，AOT提出了身份识别机制来在同一个高维嵌入空间内表征与联系不同的目标。因此，我们可以同时处理多个目标的匹配和分割预测，就像处理单个目标一样高效。此外，为了充分地建模多目标之间的联系，我们提出了长短期Transformer结构来构造层次化的匹配和传播。我们在单目标和多目标的基准数据集上进行了大量的实验来验证不同复杂的AOT变种网络的性能和效率。特别地，我们的R50-AOT-L模型在三个最常用的基准数据集上均超越了以往的最佳方法，并且保持了至少快三倍的多目标推断速度。同时，我们的AOT-T模型可以在这些基准数据集上实时地处理多目标。基于AOT，我们在第三届大规模YouTube-VOS挑战赛 (CVPR 2021)中获得冠军。

论文信息：

[1] Zongxin Yang, Yunchao Wei, Yi Yang, Associating Objects with Transformers for Video Object Segmentation, NeurIPS 2021.

论文链接：

[https://openreview.net/pdf?id=hl3v8io3ZYt]

代码链接：

https://github.com/z-x-yang/AOT

视频讲者简介：

杨宗鑫博士目前是浙江大学计算机科学与技术学院的博士后研究员。他于2021年在悉尼科技大学获博士学位。他的研究方向为计算机视觉，包括视频理解、三维视觉和视觉内容生成。杨宗鑫博士已在世界顶级的学术会议和期刊上以第一作者身份发表6篇论文。他多次在视频分割领域顶级学术竞赛中获奖，并于CVPR2021会议的YouTube-VOS挑战赛中获得冠军。