扩散模型在生成过程中,早期阶段侧重于构建图像的基础结构,而细节部分(包括局部特征与纹理)则主要在后期阶段生成。因此,扩散模型中的同一网络层被迫同时学习结构性与纹理性信息,这与传统深度学习架构(如 ResNet 或 GAN)在不同层次捕捉/生成图像语义信息的方式存在显著差异。正是这种结构上的差异,激发我们对“时间维度上的扩散模型”展开探索。

我们首先研究了 U-Net 各参数对去噪过程的关键贡献,并发现:合理地将某些参数置零(即使是数值较大的参数)反而有助于去噪,可即时提升生成质量。基于这一发现,我们提出了一种简单但高效的方法——“MaskUNet”,在不显著增加参数数量的情况下有效增强图像生成质量。 该方法充分利用了依赖于时间步与样本的有效 U-Net 参数子集。为进一步优化 MaskUNet,我们设计了两种微调策略:一种基于训练,另一种为免训练方式,均包括专门设计的网络结构与优化函数。 在 COCO 数据集上的零样本生成任务中,MaskUNet 取得了最优的 FID 分数,并在多项下游任务评估中表现出显著优势。 项目主页: 🔗 https://gudaochangsheng.github.io/MaskUnet-Page/

成为VIP会员查看完整内容
2

相关内容

【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
22+阅读 · 2023年10月21日
专知会员服务
39+阅读 · 2021年5月16日
专知会员服务
38+阅读 · 2021年4月25日
【WWW2021】自监督学习上下文嵌入的异构网络链接预测
专知会员服务
40+阅读 · 2021年2月10日
专知会员服务
42+阅读 · 2020年2月20日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
457+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
22+阅读 · 2023年10月21日
专知会员服务
39+阅读 · 2021年5月16日
专知会员服务
38+阅读 · 2021年4月25日
【WWW2021】自监督学习上下文嵌入的异构网络链接预测
专知会员服务
40+阅读 · 2021年2月10日
专知会员服务
42+阅读 · 2020年2月20日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员