Diffusion models have established the state-of-the-art in text-to-image generation, but their performance often relies on a diffusion prior network to translate text embeddings into the visual manifold for easier decoding. These priors are computationally expensive and require extensive training on massive datasets. In this work, we challenge the necessity of a trained prior at all by employing Optimization-based Visual Inversion (OVI), a training-free and zero-shot alternative, to replace the need for a prior. OVI initializes a latent visual representation from random pseudo-tokens and iteratively optimizes it to maximize the cosine similarity with the input textual prompt embedding. We further propose two novel constraints, a Mahalanobis-based and a Nearest-Neighbor loss, to regularize the OVI optimization process toward the distribution of realistic images. Our experiments, conducted on Kandinsky 2.2, show that OVI can serve as an alternative to traditional priors. More importantly, our analysis reveals a critical flaw in current evaluation benchmarks like T2I-CompBench++, where simply using the text embedding as a prior achieves surprisingly high scores, despite lower perceptual quality. Our constrained OVI methods improve visual fidelity over this baseline, with the Nearest-Neighbor approach proving particularly effective. It achieves quantitative scores comparable to or higher than the state-of-the-art data-efficient prior, underscoring the potential of optimization-based strategies as viable, training-free alternatives to traditional priors. The code will be publicly available upon acceptance.


翻译:扩散模型已在文本到图像生成领域确立了最先进的性能,但其效果通常依赖于一个扩散先验网络将文本嵌入映射到视觉流形以便于解码。这些先验网络计算成本高昂,且需要基于海量数据集进行大量训练。本研究通过采用基于优化的视觉反演(一种免训练、零样本的替代方案)来挑战训练先验的必要性,从而完全取代对先验网络的需求。OVI从随机伪标记初始化潜在视觉表示,并通过迭代优化使其与输入文本提示嵌入的余弦相似度最大化。我们进一步提出两种新颖的约束条件——基于马氏距离的损失函数和最近邻损失函数,以规范OVI优化过程,使其趋向真实图像的分布。我们在Kandinsky 2.2上进行的实验表明,OVI可以作为传统先验的替代方案。更重要的是,我们的分析揭示了当前评估基准(如T2I-CompBench++)存在一个关键缺陷:尽管感知质量较低,但仅使用文本嵌入作为先验即可获得惊人的高分。我们提出的约束OVI方法在此基线基础上提升了视觉保真度,其中最近邻方法被证明尤为有效。该方法获得的量化分数与最先进的数据高效先验相当甚至更高,这凸显了基于优化的策略作为传统先验可行且免训练的替代方案的潜力。代码将在论文录用后公开。

0
下载
关闭预览

相关内容

【TPAMI2024】增强视频-语言表示的结构时空对齐方法
专知会员服务
24+阅读 · 2024年6月30日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员