视图合成——即从新颖相机视角生成场景的逼真图像——是计算机视觉的基石,支撑着计算机图形学、沉浸式现实以及具身智能体(embodied AI)等应用。尽管其重要性不言而喻,但即使投入了更多数据与算力,视图合成的扩展性依然未能展现出与语言或二维生成相媲美的能力:基于重建的方法在稀疏视角或场景运动的情况下容易崩溃,而生成模型则难以保证三维一致性与精确的相机控制。 本论文表明,深度生成先验——具体实现为基于相机位姿条件的扩散模型——能够弥合这一差距。研究依次推进三个阶段。首先,我们揭示了现有动态视图合成基准在暗中依赖多视角线索;一旦去除这些线索,性能便急剧下降,从而暴露出基于重建方法的脆弱性。其次,我们提出了一种可行的解决方案,将学习得到的单目深度与长程跟踪先验注入动态三维高斯场景表示中,从单个视频中恢复出全局一致的几何与运动。最后,我们彻底放弃显式重建,将相机条件扩散与双通道采样策略相结合,仅凭一张输入图像即可合成时长达数分钟、可控相机运动的视频。

从诊断重建方法的局限,到引入数据驱动的正则先验对其进行增强,再到用全生成式管线完全取而代之,我们的研究描绘了一条清晰的技术演进路径,最终实现了最先进的保真度、时间一致性和相机控制精度,同时显著减少了所需输入信号的规模。最后,我们总结了当前尚未解决的挑战,并展望了将视图合成扩展至真正世界级三维环境的未来方向。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【ETHZ博士论文】用于场景生成的3D生成模型
专知会员服务
21+阅读 · 2024年12月12日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
39+阅读 · 2024年10月21日
【牛津大学博士论文】有效的离线训练与高效的在线适应
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
干货 | 视频显著性目标检测(文末附有完整源码)
计算机视觉战队
38+阅读 · 2019年9月3日
牛逼哄哄的图卷积神经网络将带来哪些机遇?
计算机视觉life
49+阅读 · 2019年3月25日
【迁移学习】迁移学习在图像分类中的简单应用策略
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
Arxiv
69+阅读 · 2022年9月7日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员