摘要——人工智能生成内容(AIGC)的革命性进展从根本上改变了视觉内容创作与艺术表达的格局。尽管图像生成与风格迁移领域取得了显著成果,但其底层机制与审美影响仍未被充分理解。本文对视觉艺术领域中的 AIGC 技术进行了全面综述,系统梳理了其从早期算法框架到当代深度生成模型的演进过程。我们识别出三种关键范式——变分自编码器(VAE)、生成对抗网络(GAN)以及扩散模型(Diffusion Models),并分析了它们在弥合人类创造力与机器合成之间鸿沟中的作用。为支撑我们的分析,我们系统回顾了过去十年中发表的 500 余篇研究论文,涵盖基础理论发展与最新技术进展。此外,本文还提出了一个多维评估框架,涵盖技术创新性、艺术价值、视觉质量、计算效率与创意潜力等维度。研究结果揭示了 AIGC 系统的变革性能力与当前局限性,强调了其对未来创作实践的深远影响。通过本次全面综述,我们提供了人工智能与艺术表达融合的统一视角,同时指出了该快速发展领域中的关键挑战与未来研究的潜在方向。 关键词——图像生成,风格迁移,生成模型,综述
1 引言
“我梦见自己的画作,然后我画出自己的梦。” ——文森特·梵高 风格迁移旨在学习一个映射函数 F : (Ic, Is) ↦ It, 其中输出图像 It 在保留内容图像 Ic 的结构语义的同时,匹配参考图像 Is 的风格统计特征。 自 Gatys 等人的开创性研究【1】以来,该领域已经从缓慢的优化方法发展到毫秒级的前馈生成器,近年来更是跃升至支持 4K 分辨率和细粒度语义控制的扩散模型与自回归(AR)生成管线。风格迁移技术广泛应用于肖像润饰、实时视频风格化以及游戏与电影中的三维资产生成。 过去十年的研究揭示了三次颠覆性飞跃: (i) 神经风格迁移展示了卷积网络中的 Gram 统计量能够编码可迁移的风格; (ii) 实时生成器与对抗训练带来了逼真的写实风格; (iii) 2022–2025 年的扩散与自回归系统在规模与可控性上实现了双重突破。 然而,核心挑战依然存在:如何在有限计算资源下,在感知保真度、生成速度与风格多样性之间取得平衡。
1.1 技术演进
早期的计算机图形启发式方法,随着变分自编码器(VAE)【2】与生成对抗网络(GAN)【3】的提出,逐步演化为深度生成建模技术。Gatys 等人的神经风格迁移开创性地提出使用 Gram 统计量表示视觉风格,催生了实时前馈变体与任意风格迁移方法。 随后,扩散模型【12】以及大规模文本-图像生成系统(如 Stable Diffusion【22】和 DALL·E 2)进一步提升了图像分辨率与语义控制能力。同时,CLIP【43】的引入也使语言引导的风格化成为可能(如 StyleGAN-NADA【44】、CLIPstyler【45】)。 近期的研究则探索结构解耦与高效架构,实现了可实时运行、具备强内容保持能力的 4K 风格迁移系统。图 1 总结了这些重要的技术里程碑。
1.2 研究目标与贡献
本综述聚焦于风格迁移中的生成模型方法,涵盖以下研究目标与贡献: 1)生成模型:系统梳理基于 GAN、VAE、自回归模型与扩散模型的风格迁移方法,重点关注图像质量、训练稳定性与风格-内容控制能力。 2)评估框架:探讨不同方法在有效性、鲁棒性、可控性、可解释性、实用性与审美质量等方面的表现。 3)应用与未来趋势:总结风格迁移在肖像、视频、文本、三维等领域的现有应用场景,并展望未来可能的发展方向。 4)数据集与评估指标:汇总公开可用的数据集与风格迁移研究中常用的评估基准。 本文结构如下:第 2 节介绍风格迁移的基本原理,第 3 节探讨生成模型的发展,第 4 节讨论评估框架,第 5 节分析领域应用,第 6 节回顾数据集与评估方法。补充资源可访问:
https://github.com/neptune-T/Awesome-Style-Transfer。