Leveraging recent diffusion models, LiDAR-based large-scale 3D scene generation has achieved great success. While recent voxel-based approaches can generate both geometric structures and semantic labels, existing range-view methods are limited to producing unlabeled LiDAR scenes. Relying on pretrained segmentation models to predict the semantic maps often results in suboptimal cross-modal consistency. To address this limitation while preserving the advantages of range-view representations, such as computational efficiency and simplified network design, we propose Spiral, a novel range-view LiDAR diffusion model that simultaneously generates depth, reflectance images, and semantic maps. Furthermore, we introduce novel semantic-aware metrics to evaluate the quality of the generated labeled range-view data. Experiments on the SemanticKITTI and nuScenes datasets demonstrate that Spiral achieves state-of-the-art performance with the smallest parameter size, outperforming two-step methods that combine the generative and segmentation models. Additionally, we validate that range images generated by Spiral can be effectively used for synthetic data augmentation in the downstream segmentation training, significantly reducing the labeling effort on LiDAR data.


翻译:借助近期扩散模型的发展,基于激光雷达的大规模三维场景生成已取得显著成功。虽然当前基于体素的方法能够同时生成几何结构和语义标签,但现有的基于距离视图的方法仅限于生成未标注的激光雷达场景。依赖预训练的分割模型预测语义图往往导致跨模态一致性欠佳。为在保持距离视图表示优势(如计算效率高、网络设计简化)的同时解决这一局限,我们提出Spiral——一种新颖的距离视图激光雷达扩散模型,可同步生成深度图、反射率图像及语义图。此外,我们引入创新的语义感知指标来评估生成的标注距离视图数据的质量。在SemanticKITTI和nuScenes数据集上的实验表明,Spiral以最小的参数量实现了最先进的性能,优于结合生成模型与分割模型的两步方法。同时,我们验证了Spiral生成的距离图像能有效用于下游分割训练中的合成数据增强,显著降低了激光雷达数据的标注成本。

0
下载
关闭预览

相关内容

【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员