近年来,3D高斯溅射(3D-GS)在从RGB图像中进行高质量的3D场景重建方面取得了显著进展。许多研究扩展了这一范式,应用于语言驱动的开放词汇场景理解。然而,大多数研究仅仅将2D语义特征投影到3D高斯分布上,忽视了2D与3D理解之间的根本差距:3D物体在不同视角下可能呈现出不同的语义特征——这一现象我们称之为视角依赖语义。为了应对这一挑战,我们提出了LaGa(语言高斯),它通过将3D场景分解为物体,建立跨视角的语义关联。接着,它通过对语义描述符进行聚类,并根据多视角语义重新加权,构建视角聚合的语义表示。大量实验表明,LaGa能够有效捕捉视角依赖语义中的关键信息,从而实现对3D场景的更全面理解。值得注意的是,在相同设置下,LaGa在LERF-OVS数据集上相较于之前的SOTA,mIoU显著提升了+18.7%。我们的代码已开放,地址为:https://github.com/https://github.com/SJTU-DeepVisionLab/LaGa。

成为VIP会员查看完整内容
7

相关内容

【ICLR2025】大型语言模型的动态低秩稀疏适应
专知会员服务
12+阅读 · 2月21日
【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
33+阅读 · 2023年6月9日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
21+阅读 · 2022年4月20日
专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
50+阅读 · 2021年6月2日
【WWW2021】知识图谱逻辑查询的自监督双曲面表示
专知会员服务
30+阅读 · 2021年4月9日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【ICLR2025】大型语言模型的动态低秩稀疏适应
专知会员服务
12+阅读 · 2月21日
【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
33+阅读 · 2023年6月9日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
21+阅读 · 2022年4月20日
专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
50+阅读 · 2021年6月2日
【WWW2021】知识图谱逻辑查询的自监督双曲面表示
专知会员服务
30+阅读 · 2021年4月9日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员