VALSE 论文速览 第43期:AOT for Video Object Segmentation

2022 年 1 月 22 日 VALSE

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自浙江大学北京交通大学合作的半监督视频目标分割方面的工作,该工作由浙江大学杨易教授与北京交通大学魏云超教授指导,论文第一作者浙江大学博士后研究员杨宗鑫录制。


论文题目:Associating Objects with Transformers for Video Object Segmentation

作者列表:杨宗鑫 (浙江大学),魏云超 (北京交通大学),杨易 (浙江大学)

B站观看网址:

https://www.bilibili.com/video/BV1Qq4y1c7i8/


复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。


论文摘要:

这篇工作主要探索了如何在富有挑战性的多目标场景下实现更高效的特征学习以解决半监督视频目标分割 (VOS)任务。当前的VOS方法多聚焦于学习单个指定目标的特征,因而在多目标场景下需要独立地匹配与分割各个目标,这种方式会消耗多倍的单目标计算资源。为了解决这个问题,我们提出Associating Objects with Transformers (AOT)方法来统一地匹配与解码多个目标。具体地,AOT提出了身份识别机制来在同一个高维嵌入空间内表征与联系不同的目标。因此,我们可以同时处理多个目标的匹配和分割预测,就像处理单个目标一样高效。此外,为了充分地建模多目标之间的联系,我们提出了长短期Transformer结构来构造层次化的匹配和传播。我们在单目标和多目标的基准数据集上进行了大量的实验来验证不同复杂的AOT变种网络的性能和效率。特别地,我们的R50-AOT-L模型在三个最常用的基准数据集上均超越了以往的最佳方法,并且保持了至少快三倍的多目标推断速度。同时,我们的AOT-T模型可以在这些基准数据集上实时地处理多目标。基于AOT,我们在第三届大规模YouTube-VOS挑战赛 (CVPR 2021)中获得冠军。


论文信息:

[1] Zongxin Yang, Yunchao Wei, Yi Yang, Associating Objects with Transformers for Video Object Segmentation, NeurIPS 2021.


论文链接:

[https://openreview.net/pdf?id=hl3v8io3ZYt]


代码链接:

https://github.com/z-x-yang/AOT


视频讲者简介:

杨宗鑫博士目前是浙江大学计算机科学与技术学院的博士后研究员。他于2021年在悉尼科技大学获博士学位。他的研究方向为计算机视觉,包括视频理解、三维视觉和视觉内容生成。杨宗鑫博士已在世界顶级的学术会议和期刊上以第一作者身份发表6篇论文。他多次在视频分割领域顶级学术竞赛中获奖,并于CVPR2021会议的YouTube-VOS挑战赛中获得冠军。



特别鸣谢本次论文速览主要组织者:

月度轮值AC:董宣毅 (Amazon)、谢凌曦 (华为数字技术有限公司)

季度责任AC:许永超 (武汉大学)


活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!

直播地址:

https://live.bilibili.com/22300737;

历史视频观看地址:

https://space.bilibili.com/562085182/ 


2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ R群,群号:137634472);


*注:申请加入VALSE QQ群时需验证姓名、单位和身份缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。


3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。


4您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。


看到这了,确定不关注下吗?关注下再走吧~



登录查看更多
0

相关内容

VALSE 发起于 2011年,是 Vision And Learning Seminar 的简写,取“华尔兹舞”之意。目的是为全球计算机视觉、模式识别、机器学习、多媒体技术等相关领域的华人青年学者提供一个平等、自由的学术交流舞台。官网:http://valser.org/
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
12+阅读 · 2021年4月26日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
专知会员服务
37+阅读 · 2021年3月31日
专知会员服务
50+阅读 · 2021年1月19日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
VALSE 论文速览征集
VALSE
0+阅读 · 2021年12月22日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
12+阅读 · 2021年11月1日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员