人类能够轻松地利用先验知识与经验,从二维观测中理解三维环境。在 AR/VR 和机器人等领域,我们希望赋予视觉模型类似的能力,例如识别物体、估计其形状以及确定相机位置。然而,在推理阶段可用的信息往往模糊或不完整。为弥合这一差距,视觉模型可以通过从数据中学习来获取关于物体和环境的先验知识,从而增强其对三维世界的理解,并提升这些任务的性能。

在本论文中,我们探索了多种将学习型先验融入三维视觉模型的方法,从而在多个相关任务中提升了准确性与鲁棒性。我们首先聚焦于物体级三维视觉。针对单目物体重建,我们提出了一种基于射线的先验,该方法能够捕捉多层级特征,有效约束全局形状的同时保留精细细节。结合我们提出的基于射线的三维表示,该模型不仅实现了较高的准确性和泛化能力,还提升了推理速度。接着,我们提出了一种基于扩散模型的框架,利用来自多种来源的视觉先验,实现了类别无关的三维目标检测。该方法在域内任务上表现优异,并在复杂的真实场景中展现了对新类别物体的鲁棒性。

随后,我们将视角转向场景级三维视觉,研究已知与未知相机位姿下的场景结构与相机位姿的联合优化。在位姿信息不可用的情况下,我们引入了来自单目深度估计器的几何先验,以同时正则化几何结构与相对相机位姿,从而提升联合优化的鲁棒性。在可靠的位姿初始化可用时,我们进一步通过一种全局轨迹约束的替代参数化方式,以及结合对极几何损失引入的对应先验,对位姿与场景几何进行细化。最后,我们提出了多种几何先验来增强场景坐标回归,从而在重建与视觉重定位任务中取得了更优性能。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【牛津博士论文】零样本强化学习综述
专知会员服务
25+阅读 · 8月25日
【牛津大学博士论文】深度具身智能体的空间推理与规划
【剑桥大学博士论文】图机器学习非参数建模,128页pdf
专知会员服务
46+阅读 · 2024年5月4日
【迪肯大学博士论文】深度神经网络视觉推理
专知会员服务
47+阅读 · 2022年10月3日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
174+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员