Although Diffusion Transformer (DiT) has emerged as a predominant architecture for image and video generation, its iterative denoising process results in slow inference, which hinders broader applicability and development. Caching-based methods achieve training-free acceleration, while suffering from considerable computational error. Existing methods typically incorporate error correction strategies such as pruning or prediction to mitigate it. However, their fixed caching strategy fails to adapt to the complex error variations during denoising, which limits the full potential of error correction. To tackle this challenge, we propose a novel fidelity-optimization plugin for existing error correction methods via cumulative error minimization, named CEM. CEM predefines the error to characterize the sensitivity of model to acceleration jointly influenced by timesteps and cache intervals. Guided by this prior, we formulate a dynamic programming algorithm with cumulative error approximation for strategy optimization, which achieves the caching error minimization, resulting in a substantial improvement in generation fidelity. CEM is model-agnostic and exhibits strong generalization, which is adaptable to arbitrary acceleration budgets. It can be seamlessly integrated into existing error correction frameworks and quantized models without introducing any additional computational overhead. Extensive experiments conducted on nine generation models and quantized methods across three tasks demonstrate that CEM significantly improves generation fidelity of existing acceleration models, and outperforms the original generation performance on FLUX.1-dev, PixArt-$α$, StableDiffusion1.5 and Hunyuan. The code will be made publicly available.


翻译:尽管扩散Transformer(DiT)已成为图像和视频生成的主流架构,但其迭代去噪过程导致推理速度缓慢,限制了更广泛的应用与发展。基于缓存的方法实现了无需训练的加速,但会引入显著的计算误差。现有方法通常通过剪枝或预测等误差校正策略来缓解此问题。然而,其固定的缓存策略无法适应去噪过程中复杂的误差变化,限制了误差校正的完整潜力。为应对这一挑战,我们提出一种通过累积误差最小化实现保真度优化的新型插件方法CEM,适用于现有误差校正框架。CEM通过预定义误差来表征模型对加速的敏感度,该敏感度同时受时间步长和缓存间隔的影响。在此先验指导下,我们构建了基于累积误差近似的动态规划算法进行策略优化,实现缓存误差最小化,从而显著提升生成保真度。CEM具有模型无关性和强泛化能力,可适配任意加速预算。该方法能无缝集成到现有误差校正框架及量化模型中,且不引入额外计算开销。在三个任务中对九种生成模型及量化方法开展的广泛实验表明,CEM显著提升了现有加速模型的生成保真度,并在FLUX.1-dev、PixArt-$α$、StableDiffusion1.5和Hunyuan上超越了原始生成性能。代码将公开发布。

0
下载
关闭预览

相关内容

国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员