Recent work has shown that inference-time reasoning and reflection can improve text-to-image generation without retraining. However, existing approaches often rely on implicit, holistic critiques or unconstrained prompt rewrites, making their behavior difficult to interpret, control, or stop reliably. In contrast, large language models have benefited from explicit, structured forms of **thinking** based on verification, targeted correction, and early stopping. We introduce CRAFT (Continuous Reasoning and Agentic Feedback Tuning), a training-free, model-agnostic framework that brings this structured reasoning paradigm to multimodal image generation. CRAFT decomposes a prompt into dependency-structured visual questions, veries generated images using a vision-language model, and applies targeted prompt edits through an LLM agent only where constraints fail. The process iterates with an explicit stopping criterion once all constraints are satised, yielding an interpretable and controllable inference-time renement loop. Across multiple model families and challenging benchmarks, CRAFT consistently improves compositional accuracy, text rendering, and preference-based evaluations, with particularly strong gains for lightweight generators. Importantly, these improvements incur only a negligible inference-time overhead, allowing smaller or cheaper models to approach the quality of substantially more expensive systems. Our results suggest that explicitly structured, constraint-driven inference-time reasoning is a key ingredient for improving the reliability of multimodal generative models.


翻译:近期研究表明,推理时的反思机制能够在不重新训练的情况下提升文本到图像生成质量。然而,现有方法通常依赖于隐式的整体性评判或无约束的提示词改写,导致其行为难以解释、控制或可靠终止。相比之下,大语言模型已从基于验证、定向修正和提前终止的显式结构化**思维**模式中获益。本文提出CRAFT(连续推理与智能反馈调优),这是一个免训练、模型无关的框架,将结构化推理范式引入多模态图像生成领域。CRAFT将提示词分解为依赖关系结构的视觉问题,通过视觉语言模型验证生成图像,并仅在约束条件未满足时通过LLM智能体进行定向提示词编辑。该过程在所有约束条件满足后,基于显式停止准则进行迭代,形成可解释且可控的推理时优化循环。在多种模型架构和具有挑战性的基准测试中,CRAFT持续提升了组合准确性、文本渲染能力和基于偏好的评估效果,尤其在轻量级生成器上表现出显著优势。值得注意的是,这些改进仅带来可忽略的推理时间开销,使得规模较小或成本较低的模型能够接近昂贵系统的生成质量。我们的研究结果表明,显式结构化、约束驱动的推理时思考是提升多模态生成模型可靠性的关键要素。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员