任意分辨率的图像生成能够在不同设备上提供一致的视觉体验,在生产者和消费者应用中具有广泛价值。然而,现有的扩散模型在分辨率提升时,其计算需求会 随分辨率呈二次方增长,导致 4K 图像生成的延迟超过 100 秒。为了解决这一问题,我们探索了 潜在扩散模型(latent diffusion models)的第二代改进。在该框架中,扩散模型生成的固定潜在表示被视为内容表征,我们进一步提出利用一个 单步生成器,将这一紧凑的潜在表示解码为任意分辨率的图像。因此,我们提出了 InfGen,用其替代传统的 VAE。

成为VIP会员查看完整内容
1

相关内容

【ICML2025】FG-CLIP:细粒度视觉与文本对齐
专知会员服务
11+阅读 · 5月9日
【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer
专知会员服务
15+阅读 · 2024年10月5日
【IJCAI2024】Gradformer:具有指数衰减的图变换器
专知会员服务
17+阅读 · 2024年4月25日
【NeurIPS2022】GENIE:高阶去噪扩散求解器
专知会员服务
18+阅读 · 2022年11月13日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员