Can our video understanding systems perceive objects when a heavy occlusion exists in a scene? To answer this question, we collect a large scale dataset called OVIS for occluded video instance segmentation, that is, to simultaneously detect, segment, and track instances in occluded scenes. OVIS consists of 296k high-quality instance masks from 25 semantic categories, where object occlusions usually occur. While our human vision systems can understand those occluded instances by contextual reasoning and association, our experiments suggest that current video understanding systems are not satisfying. On the OVIS dataset, the highest AP achieved by state-of-the-art algorithms is only 14.4, which reveals that we are still at a nascent stage for understanding objects, instances, and videos in a real-world scenario. Moreover, to complement missing object cues caused by occlusion, we propose a plug-and-play module called temporal feature calibration. Built upon MaskTrack R-CNN and SipMask, we report an AP of 15.2 and 15.0 respectively. The OVIS dataset is released at http://songbai.site/ovis , and the project code will be available soon.


翻译:我们的视频理解系统能否感知到当场中存在严重封闭时的物体? 为了回答这个问题,我们收集了一个大型数据集,名为 OVIS,用于隐蔽视频实例分割,即同时检测、分解和跟踪隐蔽场景中的事例。 OVIS 由来自25个语义类的296k高品质掩体遮罩组成,通常会发生物体隔离。虽然我们的人类视觉系统可以通过背景推理和关联来理解隐蔽的事例,但我们的实验表明,目前的视频理解系统并不令人满意。在 OVIS 数据集上,通过最新算法实现的最高AP值仅为14.4,这表明我们仍然处于在现实世界情景中理解对象、事件和视频的新生阶段。此外,为了补充封闭造成的缺失对象提示,我们提议了一个称为时间特征校准的插片模块。在MaskTrack R-CNN 和SipMask 上,我们报告AP 分别是15.2和15.0。 OVIS 数据设置将在http://ongbai上发布。

0
下载
关闭预览

相关内容

专知会员服务
71+阅读 · 2020年12月12日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
计算机视觉领域顶会CVPR 2018 接受论文列表
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
TensorMask: A Foundation for Dense Object Segmentation
Arxiv
10+阅读 · 2019年3月28日
Arxiv
5+阅读 · 2016年10月24日
VIP会员
相关资讯
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
计算机视觉领域顶会CVPR 2018 接受论文列表
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员