组合图像检索(Composed Image Retrieval,CIR)旨在基于参考图像与描述期望修改的文本,检索出相关的目标图像。然而,现有的CIR方法通常仅关注检索目标图像,而忽视了其他图像的相关性。这一局限主要源于多数方法采用对比学习范式,即将目标图像视为正样本,而将批中的所有其他图像一概视为负样本,进而可能引入“伪负样本”(false negatives)。这会导致系统检索出不相关图像,即使目标图像被成功检索,也可能降低用户满意度。

为了解决上述问题,我们提出了一种名为 QURE(Query-Relevant Retrieval through Hard Negative Sampling) 的方法,旨在通过优化奖励模型目标函数来减少伪负样本的干扰。此外,我们设计了一种困难负样本采样策略:该策略选择在目标图像之后、相关性分数出现两次急剧下降之间的图像,作为潜在的困难负样本,从而更有效地过滤伪负样本。

为了评估CIR模型在与用户满意度对齐方面的表现,我们还构建了一个新数据集 —— Human-Preference FashionIQ(HP-FashionIQ),该数据集显式地捕捉了超越目标检索本身的用户偏好信息。大量实验表明,QURE在FashionIQ和CIRR数据集上达到了当前最先进的性能,并且在HP-FashionIQ数据集上展现出与人类偏好最强的一致性。 源代码可在以下地址获取: https://github.com/jackwaky/QuRe

成为VIP会员查看完整内容
0

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 4月5日
【CVPR2025】CoLLM:面向组合图像检索的大语言模型
【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
【SIGIR2024】生成检索作即多向量密集检索
专知会员服务
23+阅读 · 2024年4月5日
【CVPR2022】基于密集学习的半监督目标检测
专知会员服务
20+阅读 · 2022年4月19日
专知会员服务
44+阅读 · 2021年7月6日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
微信扫码咨询专知VIP会员