近年来,预训练的文本‑图像(T2I)模型凭借强大的生成先验,被广泛应用于真实场景的图像复原。然而,要让这些大型模型在图像复原任务中可控,通常需要大量高质量图像和巨额计算资源进行训练,既昂贵又不利于隐私保护。本文发现,经过充分训练的大型 T2I 模型(即 Flux)能够生成与真实分布一致的多样化高质量图像,可为训练提供近乎无限的样本,缓解上述难题。为此,我们提出了一条名为 FluxGen 的图像复原训练数据构建流程,包括无条件图像生成、图像筛选和退化图像模拟。我们还精心设计了一种轻量级适配器 FluxIR,其采用 squeeze‑and‑excitation (SE) 层来控制基于 Diffusion Transformer (DiT) 的大型 T2I 模型,从而恢复合理细节。实验证明,该方法能有效地使 Flux 模型适配真实场景图像复原任务,并在合成与真实退化数据集上取得了更优的定量指标和视觉质量——训练成本仅为现有方法的约 8.5%。

成为VIP会员查看完整内容
11

相关内容

【NeurIPS2024】释放扩散模型在小样本语义分割中的潜力
专知会员服务
17+阅读 · 2024年10月4日
【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
20+阅读 · 2024年3月30日
专知会员服务
20+阅读 · 2020年3月29日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【干货】利用ENVI从航空影像中提取DEM
无人机
14+阅读 · 2018年1月8日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
459+阅读 · 2023年3月31日
Arxiv
168+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员