摘要—三维高斯泼溅(3D Gaussian Splatting,3DGS)近期已成为神经辐射场(Neural Radiance Fields,NeRF)在三维场景表示中的一种有力替代方案,能够在保持高保真、逼真渲染的同时实现实时性能。除了新视角合成之外,3DGS 显式且紧凑的特性还支持多种需要几何与语义理解的下游应用。本文对 3DGS 应用的最新进展进行了全面综述。首先介绍了支持 3DGS 应用中语义理解与控制的二维基础模型,然后回顾了对 3DGS 方法具有启发意义的基于 NeRF 的相关方法。随后,我们将 3DGS 应用划分为分割、编辑、生成以及其他功能性任务,并针对每一类,总结了具有代表性的方法、监督策略与学习范式,重点分析其共性设计原则与新兴发展趋势。文中还汇总了常用的数据集与评测协议,并在公共基准上对近期方法进行了对比分析。为支持持续的研究与开发,我们在 https://github.com/heshuting555/Awesome-3DGS-Applications 维护了一个持续更新的论文、代码与资源仓库。 关键词—综述,三维高斯泼溅,应用,分割,编辑,生成
三维高斯泼溅(3D Gaussian Splatting,3DGS)[1] 近年来已成为一种功能强大的实时神经渲染范式,能够以更高的效率实现高保真、逼真的合成效果。与神经辐射场(Neural Radiance Fields,NeRFs)[2] 等依赖基于坐标的神经网络进行体积积分的隐式场方法不同,3DGS 将场景表示为各向异性的三维高斯集合,并通过可微光栅化进行渲染。这种显式但可学习的建模方式既支持高效优化与快速推理,又能保留细粒度的几何与外观细节。作为新一代的神经表示方法,3DGS 在虚拟与增强现实、机器人学、自动驾驶导航以及城市建模等广泛应用场景中展现出显著潜力。
早期的 3DGS 研究 [1], [3], [4] 主要集中于新视角合成,而近期的研究则将其应用范围扩展到越来越多的下游任务,包括同时定位与建图(SLAM)[5]、人类虚拟形象 [6]、分割 [7]、编辑 [8]、生成 [9] 等。这些应用需要更丰富的表示能力,不仅包含几何信息,还需融合语义、空间关系以及多模态线索。与基于 NeRF 的框架相比,3DGS 提供了更具结构化和可解释性的建模方式,便于高效优化、直接监督以及直观操作,使其在渲染之外的高层任务中具备明显优势。
尽管已有多篇最新综述 [10], [11], [12], [13] 记录了 3DGS 的快速发展,但它们主要关注全局分类体系、实时渲染流程或压缩策略,对于由 3DGS 驱动的下游应用研究提供的见解较为有限。少数工作 [14], [15], [16] 涉及应用领域,但通常缺乏对底层设计原则、方法创新或评测协议的系统性分析。为填补这一空白,我们首次提出一篇专门面向 3DGS 下游应用的系统性综述,重点关注超越经典视角合成的三大快速发展方向:分割、编辑与生成(如图 1 所示)。
贡献 本文系统而全面地回顾了近期 3DGS 文献,重点关注其新兴的下游应用。我们首先介绍能够在基于 3DGS 的系统中实现语义控制与理解的二维基础模型,并简要回顾相关的 NeRF 方法以建立概念上的连续性。本文的核心部分围绕三大主要任务类别展开:分割、编辑与生成。在每一类别中,我们从技术设计、学习范式与监督策略等方面系统比较了具有代表性的研究,并进一步分析了各领域的基准设置与性能表现,旨在为新入门者与资深研究人员提供一份自洽且易于查阅的参考资源。最后,我们讨论了开放挑战与未来研究机遇,旨在推动 3DGS 在高层视觉与图形应用任务中的深入探索与广泛应用。
结构安排 图 2 给出了本文的整体结构概览。第 2 节介绍基本背景知识,包括关键定义、常用二维基础模型以及对 3DGS 发展有启发意义的 NeRF 相关研究。第 3 节从任务导向的角度回顾了近期基于 3DGS 的方法,重点关注分割、编辑与生成。第 4 节总结了评测协议与基准设置,并在不同任务与数据集上提供了定量对比以评估现有方法的性能。第 5 节讨论了开放性挑战并提出潜在的未来研究方向。最后,第 6 节对本文的核心洞见与主要结论进行总结。