Image captioning has conventionally relied on reference-based automatic evaluations, where machine captions are compared against captions written by humans. This is in stark contrast to the reference-free manner in which humans assess caption quality. In this paper, we report the surprising empirical finding that CLIP (Radford et al., 2021), a cross-modal model pretrained on 400M image+caption pairs from the web, can be used for robust automatic evaluation of image captioning without the need for references. Experiments spanning several corpora demonstrate that our new reference-free metric, CLIPScore, achieves the highest correlation with human judgements, outperforming existing reference-based metrics like CIDEr and SPICE. Information gain experiments demonstrate that CLIPScore, with its tight focus on image-text compatibility, is complementary to existing reference-based metrics that emphasize text-text similarities. Thus, we also present a reference-augmented version, RefCLIPScore, which achieves even higher correlation. Beyond literal description tasks, several case studies reveal domains where CLIPScore performs well (clip-art images, alt-text rating), but also where it is relatively weaker vs reference-based metrics, e.g., news captions that require richer contextual knowledge.


翻译:图像字幕通常依赖于基于参考的自动评价, 机器字幕与人类撰写的字幕相比较。 这与人类评估字幕质量的无参考性方式形成鲜明对比。 在本文中, 我们报告令人惊讶的经验发现, CLIP( Radford 等人, 2021年), 一种在网上400M 图像加插配对上预先训练的交叉模式, 可以用来对图像字幕进行强有力的自动评价, 而不需要参考。 跨多个公司实验显示, 我们新的无参考性指标( CLIPScore) 实现了与人类判断的最高相关性, 超过了现有的基于参考性指标( 如 CIDER 和 SPICE ) 。 信息获取实验表明, CLIPSC( ) 以图像- 文本兼容性为紧凑合一的基于参考性指标, 是对强调文本相似性的现有参考性指标( RefCLIPSc) 的补充。 因此, 我们还提出了一个参考性版本, RefCLIPScore, 实现更高的相关性。 除了简单的描述任务外, 一些案例研究还揭示了 CLIPSC 的域, 其中要求相对的图表。

1
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【图与几何深度学习】Graph and geometric deep learning,49页ppt
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
NIPS 2017论文解读 | 基于对比学习的Image Captioning
PaperWeekly
6+阅读 · 2018年2月28日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Arxiv
4+阅读 · 2018年5月24日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
7+阅读 · 2018年4月21日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员