Automating Text-to-Image (T2I) model evaluation is challenging; a judge model must be used to score correctness, and test prompts must be selected to be challenging for current T2I models but not the judge. We argue that satisfying these constraints can lead to benchmark drift over time, where the static benchmark judges fail to keep up with newer model capabilities. We show that benchmark drift is a significant problem for GenEval, one of the most popular T2I benchmarks. Although GenEval was well-aligned with human judgment at the time of its release, it has drifted far from human judgment over time -- resulting in an absolute error of as much as 17.7% for current models. This level of drift strongly suggests that GenEval has been saturated for some time, as we verify via a large-scale human study. To help fill this benchmarking gap, we introduce a new benchmark, GenEval 2, with improved coverage of primitive visual concepts and higher degrees of compositionality, which we show is more challenging for current models. We also introduce Soft-TIFA, an evaluation method for GenEval 2 that combines judgments for visual primitives, which we show is more well-aligned with human judgment and argue is less likely to drift from human-alignment over time (as compared to more holistic judges such as VQAScore). Although we hope GenEval 2 will provide a strong benchmark for many years, avoiding benchmark drift is far from guaranteed and our work, more generally, highlights the importance of continual audits and improvement for T2I and related automated model evaluation benchmarks.


翻译:自动化文本到图像(T2I)模型评估具有挑战性;必须使用评判模型来评分正确性,且测试提示词需选择对当前T2I模型具有挑战性但对评判模型不具挑战性的内容。我们认为,满足这些约束条件可能导致基准随时间发生漂移,即静态基准评判模型无法跟上新模型的能力发展。我们证明基准漂移是GenEval(最流行的T2I基准之一)的一个显著问题。尽管GenEval在发布时与人类判断高度一致,但随时间推移已大幅偏离人类判断——导致对当前模型的绝对误差高达17.7%。这种程度的漂移强烈表明GenEval已饱和一段时间,我们通过大规模人类研究验证了这一点。为填补这一基准测试空白,我们引入了新基准GenEval 2,其改进了基础视觉概念的覆盖范围并具有更高组合度,我们证明其对当前模型更具挑战性。我们还提出了Soft-TIFA——一种针对GenEval 2的评估方法,它结合了对视觉基元的判断,我们证明其与人类判断更一致,并论证其随时间推移偏离人类对齐的可能性更低(相较于VQAScore等更整体的评判模型)。尽管我们希望GenEval 2能在未来多年提供强有力的基准,但避免基准漂移远非必然,我们的工作更广泛地强调了持续审计和改进对于T2I及相关自动化模型评估基准的重要性。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员