Transfer learning of diffusion models to smaller target domains is challenging, as naively fine-tuning the model often results in poor generalization. Test-time guidance methods help mitigate this by offering controllable improvements in image fidelity through a trade-off with sample diversity. However, this benefit comes at a high computational cost, typically requiring dual forward passes during sampling. We propose the Domain-guided Fine-tuning (DogFit) method, an effective guidance mechanism for diffusion transfer learning that maintains controllability without incurring additional computational overhead. DogFit injects a domain-aware guidance offset into the training loss, effectively internalizing the guided behavior during the fine-tuning process. The domain-aware design is motivated by our observation that during fine-tuning, the unconditional source model offers a stronger marginal estimate than the target model. To support efficient controllable fidelity-diversity trade-offs at inference, we encode the guidance strength value as an additional model input through a lightweight conditioning mechanism. We further investigate the optimal placement and timing of the guidance offset during training and propose two simple scheduling strategies, i.e., late-start and cut-off, which improve generation quality and training stability. Experiments on DiT and SiT backbones across six diverse target domains show that DogFit can outperform prior guidance methods in transfer learning in terms of FID and FDDINOV2 while requiring up to 2x fewer sampling TFLOPS. Code is available at https://github.com/yaramohamadi/DogFit.


翻译:将扩散模型迁移至更小的目标领域具有挑战性,因为直接对模型进行微调通常会导致泛化性能下降。测试时引导方法通过牺牲样本多样性来提升图像保真度的可控性,从而缓解这一问题。然而,这种优势伴随着高昂的计算成本,通常需要在采样时进行双重前向传播。本文提出领域引导微调(DogFit)方法,这是一种用于扩散迁移学习的有效引导机制,能够在保持可控性的同时避免额外的计算开销。DogFit通过向训练损失函数中注入领域感知的引导偏移量,在微调过程中有效地将引导行为内化。该领域感知设计的动机源于我们的观察:在微调过程中,无条件的源模型比目标模型能提供更强的边缘估计。为支持推理阶段高效的可控保真度-多样性权衡,我们通过轻量级条件机制将引导强度值编码为额外的模型输入。我们进一步研究了训练过程中引导偏移量的最优施加位置和时机,并提出两种简单的调度策略——延迟启动与截断机制,以提升生成质量与训练稳定性。在DiT和SiT骨干网络上,针对六个不同目标领域的实验表明,DogFit在FID和FDDINOV2指标上均优于先前的引导方法,同时采样所需的TFLOPS最高可减少2倍。代码发布于 https://github.com/yaramohamadi/DogFit。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
专知会员服务
38+阅读 · 2021年9月15日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员