Recent advances in LVLMs have improved vision-language understanding, but they still struggle with spatial perception, limiting their ability to reason about complex 3D scenes. Unlike previous approaches that incorporate 3D representations into models to improve spatial understanding, we aim to unlock the potential of VLMs by leveraging spatially relevant image data. To this end, we introduce a novel 2D spatial data generation and annotation pipeline built upon scene data with 3D ground-truth. This pipeline enables the creation of a diverse set of spatial tasks, ranging from basic perception tasks to more complex reasoning tasks. Leveraging this pipeline, we construct SPAR-7M, a large-scale dataset generated from thousands of scenes across multiple public datasets. In addition, we introduce SPAR-Bench, a benchmark designed to offer a more comprehensive evaluation of spatial capabilities compared to existing spatial benchmarks, supporting both single-view and multi-view inputs. Training on both SPAR-7M and large-scale 2D datasets enables our models to achieve state-of-the-art performance on 2D spatial benchmarks. Further fine-tuning on 3D task-specific datasets yields competitive results, underscoring the effectiveness of our dataset in enhancing spatial reasoning.


翻译:近期大型视觉语言模型(LVLM)的进展提升了视觉语言理解能力,但其在空间感知方面仍存在局限,制约了对复杂三维场景的推理能力。与以往通过引入三维表征来增强空间理解的方法不同,本研究旨在通过利用具有空间相关性的图像数据来释放视觉语言模型(VLM)的潜力。为此,我们提出了一种基于三维真值场景数据构建的新型二维空间数据生成与标注流程。该流程能够创建从基础感知任务到复杂推理任务的多样化空间任务集。依托此流程,我们从多个公共数据集的数千个场景中构建了大规模数据集SPAR-7M。此外,我们提出了SPAR-Bench基准测试,与现有空间基准相比,该基准通过支持单视角与多视角输入,提供了更全面的空间能力评估。在SPAR-7M与大规模二维数据集上的训练使我们的模型在二维空间基准测试中达到了最先进性能。进一步针对三维任务专用数据集的微调取得了具有竞争力的结果,这证实了我们数据集在增强空间推理能力方面的有效性。

0
下载
关闭预览

相关内容

基于文本的3D视觉定位综述:要素、最新进展与未来方向
【NeurIPS2023】CQM: 与量化世界模型的课程强化学习
专知会员服务
25+阅读 · 2023年10月29日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员