深度神经网络在学习丰富且结构化的潜在表征方面展现出强大能力,这推动了计算机视觉及更广泛领域的显著进展。它们在图像分类、语义分割、自然语言处理和生成建模等任务中均取得了卓越的成果。其表达能力的关键因素在于对海量数据的训练,使模型能够捕捉复杂模式并实现跨任务的泛化。然而,当数据稀缺或难以获取时,这种对大规模数据集的依赖便成为显著的限制。由此,一个自然的问题随之产生:如何在缺乏大规模配对数据的场景下,利用并适配那些在数据丰富领域中学到的表征?对此,通常有两类通用方法:其一是分析并变换潜在特征空间,使其与新的目标对齐;其二是直接适配和操作输入空间,以更好地契合模型已学习的先验。 本论文在表征学习与生成建模的语境下探讨了这两类策略。对于第一类方法,我们将神经网络中的编码信息视为结构化的特征分布,并通过数学上有根基的技术实现这些分布的对齐。在神经风格迁移的场景中,我们首先基于该思路提出了一种理论基础上的特征对齐方法。与现有方法相比,该方法能够实现更一致的风格迁移,并且具备理论保证。此外,我们还通过建立一个严谨的框架来识别和评估学习到的表征,加深了对潜在空间的理解,特别是在深度学习模型的纹理偏差问题上,对现有解决方案的有效性提出了部分质疑。 第二类方法则聚焦于适配数据表征本身,既包括对输入域的变换,也包括对模型架构的修改。这在传统架构难以处理的领域尤为重要,例如缺乏规则或高效网格结构的场景。在本论文中,我们重点研究了针对三维和非欧几里得数据的生成建模。为此,我们提出了一种基于扩散的生成模型,利用四面体表征实现高质量的三维形状合成,同时保持几何一致性。与现有方法相比,该方法能够在前所未有的分辨率下生成三维网格,并兼顾计算效率。最后,我们提出了一种方法,将现有扩散模型扩展至全景图像生成的任务,同时保留其互联网规模的图像先验。该模型不仅提升了图像质量,还实现了比已有工作更强的生成可控性。 总而言之,这些研究成果表明,通过理解并适配现有模型及表征,可以将深度学习拓展至新的输入与输出域。这些原则具有普适性,并能应用于广泛的计算机视觉任务。