Accurate 3D instance segmentation is crucial for high-quality scene understanding in the 3D vision domain. However, 3D instance segmentation based on 2D-to-3D lifting approaches struggle to produce precise instance-level segmentation, due to accumulated errors introduced during the lifting process from ambiguous semantic guidance and insufficient depth constraints. To tackle these challenges, we propose splitting and growing reliable semantic mask for high-fidelity 3D instance segmentation (SGS-3D), a novel "split-then-grow" framework that first purifies and splits ambiguous lifted masks using geometric primitives, and then grows them into complete instances within the scene. Unlike existing approaches that directly rely on raw lifted masks and sacrifice segmentation accuracy, SGS-3D serves as a training-free refinement method that jointly fuses semantic and geometric information, enabling effective cooperation between the two levels of representation. Specifically, for semantic guidance, we introduce a mask filtering strategy that leverages the co-occurrence of 3D geometry primitives to identify and remove ambiguous masks, thereby ensuring more reliable semantic consistency with the 3D object instances. For the geometric refinement, we construct fine-grained object instances by exploiting both spatial continuity and high-level features, particularly in the case of semantic ambiguity between distinct objects. Experimental results on ScanNet200, ScanNet++, and KITTI-360 demonstrate that SGS-3D substantially improves segmentation accuracy and robustness against inaccurate masks from pre-trained models, yielding high-fidelity object instances while maintaining strong generalization across diverse indoor and outdoor environments. Code is available at https://github.com/wangchaolei7/SGS-3D.


翻译:精确的三维实例分割对于三维视觉领域的高质量场景理解至关重要。然而,基于二维到三维提升方法的三维实例分割由于在提升过程中由模糊语义引导和深度约束不足引入的累积误差,难以生成精确的实例级分割结果。为应对这些挑战,我们提出了一种用于高保真三维实例分割的可靠语义掩码分割与生长方法(SGS-3D),这是一种新颖的“先分割后生长”框架:首先利用几何基元对模糊的提升掩码进行净化与分割,随后在场景中将它们生长为完整的实例。与现有方法直接依赖原始提升掩码并牺牲分割精度不同,SGS-3D作为一种免训练的优化方法,能够联合融合语义与几何信息,实现两个表征层次间的有效协同。具体而言,在语义引导方面,我们引入了一种掩码过滤策略,该策略利用三维几何基元的共现性来识别并移除模糊掩码,从而确保与三维物体实例具有更可靠的语义一致性。在几何优化方面,我们通过利用空间连续性和高层特征(尤其在语义模糊的不同物体间)来构建细粒度的物体实例。在ScanNet200、ScanNet++和KITTI-360数据集上的实验结果表明,SGS-3D显著提升了分割精度以及对预训练模型所生成不准确掩码的鲁棒性,能够在保持跨多样室内外场景强泛化能力的同时,生成高保真的物体实例。代码发布于 https://github.com/wangchaolei7/SGS-3D。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员