随着虚拟现实(VR)、增强现实(AR)以及其他三维应用的普及,开发能够让普通用户捕获并创建自有三维内容的方法变得愈发重要。然而,当前的三维创作流程往往需要繁琐的人工操作或专门的捕获装置。此外,生成的三维资产常常存在烘焙光照、表示不一致以及缺乏物理合理性的问题,从而限制了其在下游应用中的可用性。 本论文针对这些挑战,提出了一系列利用数据驱动先验的方法,以显著降低三维内容创作的门槛。通过利用来自其他模态的信息、大规模数据集以及预训练生成模型,本文的工作将用户输入的负担降低到仅需随手拍摄的照片、简单的草图和文本提示。 首先,我们展示了深度先验如何帮助用户在无需稠密数据捕获的情况下实现三维场景的数字化,并讨论了如何通过二维用户输入(如草图)实现交互式三维编辑与生成。随后,我们提出了一种端到端的文本到三维(text-to-3D)生成流程,可同时生成三维资产的几何结构与纹理。在几何生成方面,我们提出了一种基于八叉树的自适应分词方案,根据形状复杂度分配表示能力,从而实现更高保真度和更高效率的三维形状重建与生成。在外观建模方面,我们利用数据和扩散模型先验,从文本输入生成可重光照的网格纹理,确保生成的三维对象能够在下游生产工作流中发挥作用。最后,为了使数字设计与现实相结合,我们引入了 BrickGPT,它在文本提示驱动的基础上融入制造与物理约束,从而生成物理稳定、可构建的积木结构。 综合来看,这些工作通过解决几何表示、外观建模和物理感知生成中的核心挑战,架起了用户高层意图与可编辑、可用、并且物理可实现的三维内容创作之间的桥梁。