Conditional image embeddings are feature representations that focus on specific aspects of an image indicated by a given textual condition (e.g., color, genre), which has been a challenging problem. Although recent vision foundation models, such as CLIP, offer rich representations of images, they are not designed to focus on a specified condition. In this paper, we propose DIOR, a method that leverages a large vision-language model (LVLM) to generate conditional image embeddings. DIOR is a training-free approach that prompts the LVLM to describe an image with a single word related to a given condition. The hidden state vector of the LVLM's last token is then extracted as the conditional image embedding. DIOR provides a versatile solution that can be applied to any image and condition without additional training or task-specific priors. Comprehensive experimental results on conditional image similarity tasks demonstrate that DIOR outperforms existing training-free baselines, including CLIP. Furthermore, DIOR achieves superior performance compared to methods that require additional training across multiple settings.


翻译:条件图像嵌入是指根据给定文本条件(如颜色、风格)聚焦图像特定方面的特征表示,这一直是具有挑战性的问题。尽管最近的视觉基础模型(如CLIP)能提供丰富的图像表示,但其设计并非针对特定条件的聚焦。本文提出DIOR方法,利用大型视觉语言模型生成条件图像嵌入。DIOR是一种无需训练的方法,通过提示LVLM用与给定条件相关的单个词汇描述图像,随后提取LVLM最后一个词元的隐藏状态向量作为条件图像嵌入。DIOR提供了通用解决方案,无需额外训练或任务特定先验即可应用于任意图像与条件。在条件图像相似性任务上的综合实验表明,DIOR优于包括CLIP在内的现有免训练基线方法。此外,在多种设定下,DIOR相比需要额外训练的方法也展现出更优越的性能。

0
下载
关闭预览

相关内容

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
16+阅读 · 2021年11月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员