Video camouflaged object segmentation (VCOS), aiming at segmenting camouflaged objects that seamlessly blend into their environment, is a fundamental vision task with various real-world applications. With the release of SAM2, video segmentation has witnessed significant progress. However, SAM2's capability of segmenting camouflaged videos is suboptimal, especially when given simple prompts such as point and box. To address the problem, we propose Camouflaged SAM2 (CamSAM2), which enhances SAM2's ability to handle camouflaged scenes without modifying SAM2's parameters. Specifically, we introduce a decamouflaged token to provide the flexibility of feature adjustment for VCOS. To make full use of fine-grained and high-resolution features from the current frame and previous frames, we propose implicit object-aware fusion (IOF) and explicit object-aware fusion (EOF) modules, respectively. Object prototype generation (OPG) is introduced to abstract and memorize object prototypes with informative details using high-quality features from previous frames. Extensive experiments are conducted to validate the effectiveness of our approach. While CamSAM2 only adds negligible learnable parameters to SAM2, it substantially outperforms SAM2 on three VCOS datasets, especially achieving 12.2 mDice gains with click prompt on MoCA-Mask and 19.6 mDice gains with mask prompt on SUN-SEG-Hard, with Hiera-T as the backbone. The code is available at https://github.com/zhoustan/CamSAM2.


翻译:视频伪装目标分割(VCOS)旨在分割那些与周围环境无缝融合的伪装目标,是一项具有多种实际应用的基础视觉任务。随着SAM2的发布,视频分割领域取得了显著进展。然而,SAM2在分割伪装视频方面的能力尚不理想,尤其是在给定简单提示(如点和框)时。为解决此问题,我们提出了伪装SAM2(CamSAM2),它能在不修改SAM2参数的情况下增强其处理伪装场景的能力。具体而言,我们引入了一个去伪装令牌,为VCOS提供特征调整的灵活性。为了充分利用当前帧和先前帧的细粒度高分辨率特征,我们分别提出了隐式对象感知融合(IOF)模块和显式对象感知融合(EOF)模块。此外,我们引入了对象原型生成(OPG)机制,利用先前帧的高质量特征来抽象和记忆具有信息细节的对象原型。我们进行了大量实验以验证所提方法的有效性。尽管CamSAM2仅向SAM2添加了可忽略不计的可学习参数,但它在三个VCOS数据集上显著优于SAM2,特别是在以Hiera-T为骨干网络时,在MoCA-Mask数据集上使用点击提示实现了12.2的mDice增益,在SUN-SEG-Hard数据集上使用掩码提示实现了19.6的mDice增益。代码可在https://github.com/zhoustan/CamSAM2获取。

0
下载
关闭预览

相关内容

【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员