Generative models can now produce photorealistic imagery, yet they still struggle with the long, multi-goal prompts that professional designers issue. To expose this gap and better evaluate models' performance in real-world settings, we introduce Long Goal Bench (LGBench), a 2,000-task suite (1,000 T2I and 1,000 I2I) whose average instruction contains 18 to 22 tightly coupled goals spanning global layout, local object placement, typography, and logo fidelity. We find that even state-of-the-art models satisfy fewer than 72 percent of the goals and routinely miss localized edits, confirming the brittleness of current pipelines. To address this, we present VisionDirector, a training-free vision-language supervisor that (i) extracts structured goals from long instructions, (ii) dynamically decides between one-shot generation and staged edits, (iii) runs micro-grid sampling with semantic verification and rollback after every edit, and (iv) logs goal-level rewards. We further fine-tune the planner with Group Relative Policy Optimization, yielding shorter edit trajectories (3.1 versus 4.2 steps) and stronger alignment. VisionDirector achieves new state of the art on GenEval (plus 7 percent overall) and ImgEdit (plus 0.07 absolute) while producing consistent qualitative improvements on typography, multi-object scenes, and pose editing.


翻译:生成模型现已能够生成逼真的图像,但在处理专业设计师提出的长篇幅、多目标提示时仍存在困难。为揭示这一差距并更好地评估模型在真实场景下的性能,我们提出了长目标基准测试集(LGBench),该测试集包含2000项任务(1000项文本到图像生成任务和1000项图像到图像编辑任务),其平均指令包含18至22个紧密耦合的目标,涵盖全局布局、局部物体放置、版式设计和标志保真度。研究发现,即使最先进的模型也仅能达成不足72%的目标,且经常遗漏局部编辑,这证实了当前流程的脆弱性。为解决此问题,我们提出VisionDirector——一种无需训练的视觉-语言监督系统,其具备以下功能:(i)从长指令中提取结构化目标;(ii)动态决策采用单次生成还是分阶段编辑;(iii)在每次编辑后运行带语义验证与回滚机制的微网格采样;(iv)记录目标级奖励。我们进一步通过组相对策略优化对规划器进行微调,实现了更短的编辑轨迹(3.1步对比4.2步)和更强的对齐能力。VisionDirector在GenEval(整体提升7%)和ImgEdit(绝对提升0.07)基准测试中创造了新的最优性能,同时在版式设计、多物体场景和姿态编辑方面实现了持续性的质量提升。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员