【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

在这篇论文中，我通过三个贡献呈现了使图像和视频生成模型对于一般视觉内容创建具有用处的基本要素。首先，我将介绍关于长视频生成的研究。这项工作提出了一种网络架构和训练范例，使其能够从视频中学习长期时间模式，这是将视频生成从短片推进到更长格式连贯视频的关键挑战。接下来，我将介绍关于生成基于人体姿势的场景图像的研究。这项工作展示了生成模型表示人与其环境之间关系的能力，并强调了从大规模复杂的日常人类活动数据集中学习的重要性。最后，我将提出一种教导生成模型按照图像编辑指示进行操作的方法，通过结合大型语言模型和文本到图像模型的能力来创建有监督的训练数据。遵循指示是一个重要步骤，将使得视觉数据的生成模型对人们更有帮助。总的来说，这些工作推进了生成模型在合成图像和长视频方面的能力。在我攻读博士学位期间，图像和视频生成模型已从小众展示发展为广泛采用的创意工具。在这个关键时期，我很荣幸能够研究视觉生成模型，我对未来视觉生成模型的变革潜力和实用性感到乐观。在这篇论文中，我介绍了三项旨在提高生成模型进行视觉内容创作能力的工作。这些工作概述了制作未来图像和视频生成模型，使其更有助于人们完成复杂视觉创作任务所需的关键元素。在第二章，我讨论了能够表示长期模式的视频生成模型的开发。增加生成视频的时长是改善视觉生成模型的重要方面，这些模型以前主要集中在短视频片段上。长视频生成对于AI辅助制作长片等应用至关重要。此外，从长视频中学习有助于深入理解视觉世界，这对于通用视觉生成模型无比宝贵。在其他模态中增加序列长度，如语言和语音建模，已经显示出这些模型在紧急能力上的巨大提升。同样，未来的视觉生成模型可能会处理非常长的视频，最终解锁变革性的视觉理解和生成能力。我提出的视频生成方法采取了朝这个方向迈出的一步，将模型在视频中的时间视野扩大到比以前的研究更大。长视频带来了特殊的挑战，如随着时间推移在视频中出现的新物体和风景的建模，以及维护真实环境所期望的物理一致性。我的工作通过引入一种新的视频生成对抗网络(GAN)，能够在有效的时间潜在空间中表示长期模式，并且能够通过将建模问题分解为在不同的时间和空间规模上操作的两种互补的生成模型，有效地在长视频上进行训练，来解决这些困难问题。

在第三章，我介绍了关于从反映日常人类活动的复杂实际数据中学习的研究。人与物体及其周围环境之间的互动为我们提供了关于世界的丰富信息。我提出了一种通过条件生成模型学习这些关系的方法。早期的生成模型主要集中在特定的内容类别上，如脸部或特定的物体类别。这项工作将生成模型扩展到建模复杂人类场景的领域。只要提供一个人的输入骨骼姿势，模型就能够生成与该姿势兼容的合理场景。模型可以生成空场景，也可以生成包含输入姿势的人的场景。视觉结果表明，该模型开始学习场景可供性和环境与人类行为之间语义关系的微妙理解。这项研究突显了生成模型通过在大型的日常人类活动的视觉数据集上进行训练，理解视觉世界复杂关系的能力。

在第四章，我提出了一种通过教导它们遵循图像编辑指示，使视觉生成模型对人们更有用的技术。考虑人们如何使用生成模型创建视觉内容的界面是至关重要的，我认为理想的界面，除了读心术，就是与AI系统交谈，就像与有创造力的人类专家交谈一样。我们应该能够明确地告诉AI模型我们希望它们做什么，并收到一个符合我们请求的有用的输出。基于这个概念，我将介绍的最后一项工作教导生成模型遵循图像编辑指示。

基于指示的图像编辑是一个特别具有挑战性的任务，因为不像其他图像预测任务，并不存在大量的示例训练数据集。虽然有大量的图像，包括许多带有对应文本的图像，但没有大量的带有编辑指示和对应的前后图像的数据集，而收集这样的数据将会极其昂贵并且难以扩展。我展示的工作的一个关键洞察是结合大型语言模型和文本到图像模型的能力来生成必要的训练数据。随着生成模型在产生逼真样本方面变得越来越强大，它们在为其他模型或专门任务创建训练数据方面也将变得越来越有用。通过结合两个在不同模态上训练的大型生成模型的知识——一个大型语言模型和一个文本到图像模型——可以为基于指示的图像编辑创建训练数据，这是单独的模型无法完成的任务。虽然训练数据完全是生成的，但结果模型可以推广到实际输入，并为各种图像和指示生成引人入胜的图像编辑。教导视觉生成模型遵循指示是使基于AI的内容创建更有用的关键一步。在未来，将这些能力扩展到超过单一指示，并使用户和视觉生成模型之间进行全面交谈将是至关重要的。总的来说，这些工作确定了未来视觉生成模型的三个关键组成部分：随时间建模长期模式、从复杂视觉数据中学习和遵循视觉生成指示。在开发执行复杂视觉创作任务、辅助人类创造力和将我们的视觉想象变为现实的人工超智能方面，这三个元素都将是必不可少的。