144页ppt《扩散模型》，Google DeepMind Sander Dieleman - 专知VIP

会员服务 ·

20

扩散模型 · Google DeepMind ·

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本报告系统介绍了扩散模型（Diffusion Models）在现代生成式人工智能中的理论基础、训练与采样机制、模型结构、指导技术以及在图像、音频、文本等多模态任务中的应用。文中首先回顾生成模型的发展脉络，区分了显式概率建模（如自回归、流模型、VAE）与隐式建模（如GAN）。扩散模型被视为一种基于“迭代细化”（iterative refinement）的生成框架，通过逐步向数据添加噪声的前向过程与反向“去噪”过程实现生成，其本质可等价地理解为自编码器、深层潜变量模型、能量模型、基于SDE/ODE的流模型或深度RNN。报告详细阐述了扩散模型的核心数学机制，包括噪声调度（noise schedule）、预测目标（预测 x0x_0x0、噪声 ϵ\epsilonϵ 或中间变量）、训练损失与采样步骤等关键要素。文件中还对比自回归生成（一步步生成）与扩散生成（逐步去噪）两大范式，指出扩散模型在图像生成领域效果卓越的重要原因源于其“近似频谱自回归”特性，即不同噪声层级天然对应不同空间频率，使训练目标在感知上更合理（低频权重更高）。在如何控制扩散模型输出方面，报告对“分类器指导”（classifier guidance）与“无分类器指导”（classifier-free guidance）进行了深入解析，展示了在不同页图示中如何通过梯度或条件差分实现模型输出的“强化”与“引导”，从而在多样性与质量之间调节。文件同时讨论扩散模型在离散数据（如文本）上的挑战与解决方案，包括 Continuous Diffusion for Categorical Data (CDCD) 框架、得分插值（score interpolation）、时间变换（time warping）等技术，并展示其与 BERT 结构之间的关联。此外，也介绍了扩散模型在音频生成、视频生成（Veo 3）、大型图像模型（Imagen 4）中的实际应用。最后，报告还探讨了蒸馏（distillation）技术如何将多步扩散采样压缩为少步模型，以及迭代精炼如何突破传统深度网络无法训练超深图的限制，对比不同生成范式在语言和感知信号处理中的差异，并展望了未来可能由超大规模 VAE 等模型替代迭代式扩散框架的趋势。总体来看，该报告全面展示了扩散模型的理论统一性、训练与采样实践、指导方法、模型架构发展、在连续与离散领域的扩展，以及其在当代生成式 AI 中的核心地位。

成为VIP会员查看完整内容

41

相关内容

扩散模型

扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程，在复杂的图像分布和高斯分布之间建立联系，使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。

3D形状生成：综述

3D形状生成：综述

专知会员服务

17+阅读 · 7月7日

《计算欺骗》326页

《计算欺骗》326页

专知会员服务

41+阅读 · 5月5日

LLM4SR：关于大规模语言模型在科学研究中的应用综述

LLM4SR：关于大规模语言模型在科学研究中的应用综述

专知会员服务

41+阅读 · 1月9日

【阿姆斯特丹博士论文】3D 视觉学习中的连续性，127页pdf

【阿姆斯特丹博士论文】3D 视觉学习中的连续性，127页pdf

专知会员服务

32+阅读 · 2023年10月13日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

《自主系统的人为控制》

《自主系统的人为控制》

专知会员服务

62+阅读 · 2023年2月13日

【干货书】时间序列算法导论：使用Python实现机器学习和深度学习技术，188页pdf

【干货书】时间序列算法导论：使用Python实现机器学习和深度学习技术，188页pdf

专知会员服务

97+阅读 · 2023年1月1日

【图神经网络导论】Intro to Graph Neural Networks，176页ppt

【图神经网络导论】Intro to Graph Neural Networks，176页ppt

专知会员服务

129+阅读 · 2021年6月4日

最新《高斯过程回归简明教程》，19页pdf

最新《高斯过程回归简明教程》，19页pdf

专知会员服务

73+阅读 · 2020年9月30日

【EMNLP 2019】Discreteness in Neural Natural Language Processing，神经自然语言处理中的离散性，附303页PPT免费下载

【EMNLP 2019】Discreteness in Neural Natural Language Processing，神经自然语言处理中的离散性，附303页PPT免费下载

专知会员服务

26+阅读 · 2019年11月7日

【2022新书】Python数学逻辑，285页pdf

【2022新书】Python数学逻辑，285页pdf

专知

13+阅读 · 2022年11月24日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

50+阅读 · 2022年6月2日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

【唐建博士】知识图谱上的神经和符号逻辑推理，99页ppt

【唐建博士】知识图谱上的神经和符号逻辑推理，99页ppt

专知

19+阅读 · 2020年12月17日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

【新书册】贝叶斯神经网络，41页pdf

【新书册】贝叶斯神经网络，41页pdf

专知

29+阅读 · 2020年6月3日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

60+阅读 · 2019年6月14日

Mask R-CNN 论文笔记

Mask R-CNN 论文笔记

统计学习与视觉计算组

11+阅读 · 2018年3月22日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

计算机辅助的头孢菌素C酰化酶的从头设计

国家自然科学基金

0+阅读 · 2014年12月31日

基于对合否定的SBL公理化扩张系统的程度化推理及逻辑控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

493+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

Google DeepMind

相关VIP内容

3D形状生成：综述

3D形状生成：综述

专知会员服务

17+阅读 · 7月7日

《计算欺骗》326页

《计算欺骗》326页

专知会员服务

41+阅读 · 5月5日

LLM4SR：关于大规模语言模型在科学研究中的应用综述

LLM4SR：关于大规模语言模型在科学研究中的应用综述

专知会员服务

41+阅读 · 1月9日

【阿姆斯特丹博士论文】3D 视觉学习中的连续性，127页pdf

【阿姆斯特丹博士论文】3D 视觉学习中的连续性，127页pdf

专知会员服务

32+阅读 · 2023年10月13日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

《自主系统的人为控制》

《自主系统的人为控制》

专知会员服务

62+阅读 · 2023年2月13日

【干货书】时间序列算法导论：使用Python实现机器学习和深度学习技术，188页pdf

【干货书】时间序列算法导论：使用Python实现机器学习和深度学习技术，188页pdf

专知会员服务

97+阅读 · 2023年1月1日

【图神经网络导论】Intro to Graph Neural Networks，176页ppt

【图神经网络导论】Intro to Graph Neural Networks，176页ppt

专知会员服务

129+阅读 · 2021年6月4日

最新《高斯过程回归简明教程》，19页pdf

最新《高斯过程回归简明教程》，19页pdf

专知会员服务

73+阅读 · 2020年9月30日

【EMNLP 2019】Discreteness in Neural Natural Language Processing，神经自然语言处理中的离散性，附303页PPT免费下载

【EMNLP 2019】Discreteness in Neural Natural Language Processing，神经自然语言处理中的离散性，附303页PPT免费下载

专知会员服务

26+阅读 · 2019年11月7日

热门VIP内容

开通专知VIP会员享更多权益服务

数据要素发展报告(2025年)：附下载

人工智能代理提升战时舰船战备水平

【NeurIPS2025教程】大语言模型规划

NeurIPS 2025 教程：深度学习训练不稳定性的理论洞见

相关资讯

【2022新书】Python数学逻辑，285页pdf

【2022新书】Python数学逻辑，285页pdf

专知

13+阅读 · 2022年11月24日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

50+阅读 · 2022年6月2日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

【唐建博士】知识图谱上的神经和符号逻辑推理，99页ppt

【唐建博士】知识图谱上的神经和符号逻辑推理，99页ppt

专知

19+阅读 · 2020年12月17日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

【新书册】贝叶斯神经网络，41页pdf

【新书册】贝叶斯神经网络，41页pdf

专知

29+阅读 · 2020年6月3日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

60+阅读 · 2019年6月14日

Mask R-CNN 论文笔记

Mask R-CNN 论文笔记

统计学习与视觉计算组

11+阅读 · 2018年3月22日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

计算机辅助的头孢菌素C酰化酶的从头设计

国家自然科学基金

0+阅读 · 2014年12月31日

基于对合否定的SBL公理化扩张系统的程度化推理及逻辑控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

493+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员