Single-stage instance segmentation approaches have recently gained popularity due to their speed and simplicity, but are still lagging behind in accuracy, compared to two-stage methods. We propose a fast single-stage instance segmentation method, called SipMask, that preserves instance-specific spatial information by separating mask prediction of an instance to different sub-regions of a detected bounding-box. Our main contribution is a novel light-weight spatial preservation (SP) module that generates a separate set of spatial coefficients for each sub-region within a bounding-box, leading to improved mask predictions. It also enables accurate delineation of spatially adjacent instances. Further, we introduce a mask alignment weighting loss and a feature alignment scheme to better correlate mask prediction with object detection. On COCO test-dev, our SipMask outperforms the existing single-stage methods. Compared to the state-of-the-art single-stage TensorMask, SipMask obtains an absolute gain of 1.0% (mask AP), while providing a four-fold speedup. In terms of real-time capabilities, SipMask outperforms YOLACT with an absolute gain of 3.0% (mask AP) under similar settings, while operating at comparable speed on a Titan Xp. We also evaluate our SipMask for real-time video instance segmentation, achieving promising results on YouTube-VIS dataset. The source code is available at https://github.com/JialeCao001/SipMask.


翻译:由于速度和简便,单阶段断裂方法最近越来越受欢迎,但与两阶段方法相比,其准确性仍然落后。我们建议采用快速的单阶段分解方法,称为SipMask,通过将对一个实例的蒙面预测分离到检测到不同分区的捆绑框。我们的主要贡献是一个新的轻量空间保存模块,该模块在捆绑框内为每个分区生成一套单独的空间系数,从而改进了遮罩预测。它还使得空间相邻实例得到准确的划界。此外,我们采用了一种快速的单阶段分解方法,称为SipMask,该方法通过将特定实例的空间信息与物体探测更好地联系起来。关于CO测试-dev,我们的SipMask比现有的单阶段方法。与最有希望的单一阶段Lisormask相比,SipMask获得了绝对的收益1.0%(mask AP),同时提供了四倍的速度。从实时能力的角度来说,SipMask的校正值损失和在SALSAVS的绝对速度下运行一个SALA。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Arxiv
11+阅读 · 2018年4月8日
VIP会员
相关VIP内容
相关资讯
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员