本文对机器人领域中现有的场景表示方法进行了全面综述,既涵盖点云、体素、有符号距离函数(SDF)、场景图等传统表示形式,也包括神经辐射场(NeRF)、三维高斯喷溅(3DGS)以及新兴的基础模型等神经表示。尽管当前的 SLAM 与定位系统主要依赖点云、体素等稀疏表示,密集场景表示有望在导航、避障等下游任务中发挥关键作用。

此外,NeRF、3DGS 和基础模型等神经表示天然适合融合高层语义特征和基于语言的先验,从而实现更全面的三维场景理解与具身智能。在本文中,我们将机器人系统的核心模块划分为五个部分(感知、建图、定位、导航、操作)。我们首先给出不同场景表示方法的标准化表述,并在各个模块中对不同场景表示的优缺点进行对比。本综述围绕“机器人领域中哪种三维场景表示最好?”这一核心问题展开。 随后,我们讨论三维场景表示的未来发展趋势,重点探讨三维基础模型如何有望取代现有方法,成为未来机器人应用的统一解决方案,并探讨在完全实现这一模型过程中仍然存在的挑战。我们的目标是为领域新手和资深研究者提供一份有价值的参考,以便共同探索三维场景表示及其在机器人中的应用前景。我们已在 GitHub 上发布了一个开源项目,并将持续将新的研究工作和技术纳入该项目:

https://github.com/dtc111111/awesomerepresentation-for-robotics

索引词——机器人;三维场景表示;感知;定位;导航;操作;具身智能;场景生成。

I. 引言 三维场景表示(3D scene representation),即机器人理解其周围环境的能力,是实现机器人系统自主性和智能性的基础。其核心在于:利用机载传感器采集到的观测数据,构建环境的空间表示。该表示为各类下游任务提供依据,并直接决定机器人在其环境中进行导航、避障、执行操作以及开展智能交互的能力。 多年来,受益于传感器技术与算法发展的进步,机器人场景感知与表示取得了显著发展。早期的机器人状态估计方法依赖卡尔曼滤波与期望最大化(EM)算法来处理传感器观测,环境通常用二维栅格地图来表示 [129], [130]。随着 LiDAR 和 RGB-D 相机等三维传感器的出现,场景表示逐渐从二维地图演进为三维地图。这些三维表示通常基于点云 [131]、体素 [132] 或网格(mesh)[133] 构建。 然而,这类方法只能生成离散的场景表示,缺乏对稠密且连续三维表示的刻画能力。因此,它们在支持复杂具身智能任务方面存在局限,例如机器人在复杂环境中的导航与交互。近年来,深度学习与计算机图形学与机器人技术的结合推动了该领域的长足发展。在众多推动这一进步的技术中,神经辐射场(Neural Radiance Fields, NeRF)、三维高斯喷溅(3D Gaussian Splatting, 3DGS)以及基础模型(Foundation Model, FM)尤为突出。 神经辐射场(NeRF)由 Mildenhall 等人提出 [66]。其核心思想是使用多层感知机(MLP)对三维场景建模,将表示位置和视角方向的五维输入映射到场景几何与外观。NeRF 正在成为一个日益关键的组件,显著提升了机器人感知能力,并使机器人与环境之间的交互更加复杂与细腻。已有多篇综述 [134]–[138] 总结了 NeRF 在机器人系统中的应用进展。 为进一步提升计算效率,3D Gaussian Splatting(3DGS)[86] 被提出,用以明确地解决这些瓶颈,实现 1080p 分辨率下 30 fps 的高质量实时场景渲染。3DGS 采用一种显式且具有强表现力的场景表示形式,使用空间中数以百万计的可学习三维高斯椭球对场景进行建模。由于 3DGS 在多个领域都带来了重要进展,许多学者已对这一主题发表了系统性的综述 [144]–[148]。 “token 化表示”(基础模型)则通过隐式 token 对整个场景进行编码。结合 Transformer 编码器结构与大语言模型(LLM),这类方法展现出更强的泛化能力,有时甚至呈现出对训练数据中未出现问题的零样本(zero-shot)求解能力。基础模型有潜力在机器人各个模块中提升系统能力。一些综述工作 [149]–[151] 已开始关注如何将基础模型集成到机器人自主系统中。 本文的目标,是系统性地讨论与归类用于机器人的各类三维场景表示方法,并重点评估哪种表示更适合机器人系统中的不同功能模块。我们首先对机器人领域中不同场景表示方法的发展时间线进行对比,如图 1 所示。此外,我们还分析了自神经场景表示(如 NeRF、3DGS 与 token 化表示/基础模型)提出以来,机器人社区相关论文数量的变化趋势,如图 2 所示,可以明显看出,探索 NeRF、3DGS 和基础模型在机器人中应用的研究工作正在持续上升。 我们在图 3 中总结了面向真实世界机器人的五个核心模块: * 感知(Perception):机器人通过该模块感知周围环境,包括语义分割与场景理解。 * 建图(Mapping):该模块利用搭载于机器人上的传感器对周围环境进行建模与地图生成。 * 定位(Localization):机器人定位是指确定机器人相对于其环境所在位置的过程。 * 操作(Manipulation):机器人操作指机器人与周围物体交互的方式,例如抓取物体、打开门、将订单装箱等。这些动作都要求机器人能够智能地规划与控制机械手与机械臂的运动。 * 导航(Navigation):机器人导航是指机器人在某一参考坐标系中确定自身位置,并规划到达目标位置的路径的能力。

在第 II 节中,我们从不同场景表示方法的背景出发,先对各类场景表示的问题形式进行简要介绍,然后对它们之间的差异作对比。接着,我们在第 III 节讨论场景表示方法的若干改进方向:(i)内存效率:场景表示的加速与压缩。(ii)逼真渲染与可视化能力:不同表示在真实感渲染和可视化方面的能力。(iii)几何表示能力:不同场景表示对几何信息的刻画能力。 对于机器人的感知模块,我们在第 IV 节将其划分为两个部分: (i) 目标检测(Object Detection):目标层面的感知专注于对场景中单个物体进行建模与识别,包括其类别、属性与空间范围。 (ii) 场景理解(Scene Understanding):超越孤立物体,场景层面的感知旨在通过建模空间布局、语义信息、物体间关系以及整体场景上下文,捕获环境的整体结构。 在建图与定位模块(第 V 节)中,已有方法在 SLAM 与定位方面已取得了有前景的结果。神经场景表示能够对环境进行更精确、更稠密的建模,这对避障任务尤其关键,而避障能力又是机器人导航与操作的基础。在这一部分中,我们主要包含三个方面: (i) 场景重建(Scene Reconstruction):场景表示的地图重建能力,包括几何精度与渲染质量,并涵盖静态场景、大规模户外场景以及动态场景的重建能力。 (iii) SLAM:SLAM 部分主要关注不同场景表示方法在 SLAM 过程中的地图精度、位姿精度以及实时性能。 (iv) 全局定位(Global Localization):全局定位主要关注在已知地图下进行定位时的精度与实时性能。 在操作模块(第 VI-A 节)中,我们主要对基于不同场景表示方法的抓取框架进行比较。传统方法在抓取任务中通常具有更高的实时性能与计算效率,但在泛化性以及处理复杂物体操作任务方面存在局限。相比之下,基于神经场景表示的方法在生成新视角以及跨多场景泛化方面具有一定能力,使其更适应复杂任务。基于基础模型的方法进一步实现了零样本抓取任务,展现出强大的泛化能力。此外,引入语言信息使这些模型能够支持交互式抓取,并增强其理解与规划更高层次认知任务的能力。 在导航模块(第 VI 节)中,与传统场景表示方法相比,神经场景表示能够对环境进行高精度重建,并且更易与语义与语言信息深度融合,从而支持更复杂的导航任务。我们将导航模块划分为两个组成部分: (i) 规划(Planning):在避开障碍物的前提下,从当前位置生成一条到达目标位置的最优或可行路径。 (ii) 探索(Exploration):在先验未知的区域中主动导航与建图。 在本文中,我们围绕机器人不同模块中最适合的三维场景表示展开讨论,对现有方法进行分析、基准评测,并探讨当前挑战与未来发展方向。我们的主要贡献如下: * 全面且最新的综述与基准:本文对用于机器人的不同场景表示进行了广泛且最新的综述,涵盖经典方法与前沿方法。针对每个模块,我们给出了详细介绍,并突出不同场景表示在该模块中的优势。据我们所知,这是首篇专门聚焦于机器人领域场景表示讨论的综述工作。 * 三维场景表示的未来方向:在机器人的各个模块中,我们梳理了当前研究的技术瓶颈,并提出若干潜在的研究方向,以期推动这一快速发展领域的进一步进展。 * 开源项目:我们在 GitHub 上发布了一个开源项目,用于汇总机器人领域中不同场景表示相关的论文,并将持续纳入新的研究工作与技术: https://github.com/dtc111111/awesomerepresentation-for-robotics 我们希望更多研究者可以借助这一项目获取最新的研究信息。

成为VIP会员查看完整内容
0

相关内容

【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索
专知会员服务
18+阅读 · 2024年6月25日
大模型如何赋能医学?全科医学人工智能基础模型
专知会员服务
88+阅读 · 2023年4月13日
【AAAI2023】面向领域自适应语义分割的几何感知网络
专知会员服务
21+阅读 · 2022年12月7日
【AAAI2022】基于变分信息瓶颈的图结构学习
专知会员服务
20+阅读 · 2021年12月18日
数据受限条件下的多模态处理技术综述
专知
21+阅读 · 2022年7月16日
【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
基于注意力机制的图卷积网络
科技创新与创业
74+阅读 · 2017年11月8日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
493+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Arxiv
177+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员