**CLIP(Contrastive Language-Image Pre-training)**在图文检索与零样本分类等多模态任务中表现出色,但由于其训练数据以粗粒度简短描述为主,在细粒度理解方面存在不足。为了解决这一问题,我们提出了 FG-CLIP(Fine-Grained CLIP),通过三项关键创新显著提升细粒度理解能力。 首先,我们利用大规模多模态模型生成了 16亿对长文本描述与图像的配对数据,以捕捉全局语义细节。其次,构建了一个高质量数据集,包含 1200万张图像与4000万个区域级别的边界框,并配以详细文本描述,以确保表示的精确性与语境丰富性。第三,我们引入了 1000万个细粒度难负样本,以增强模型对微小语义差异的区分能力。针对上述数据,我们设计了相应的训练策略。 大量实验结果表明,FG-CLIP 在多个下游任务中(包括细粒度图文理解、开放词汇物体检测、图文检索及通用多模态评估基准)均优于原始 CLIP 和其他最新方法。这些成果凸显了 FG-CLIP 在捕捉图像细节、提升整体性能方面的有效性。 相关数据、代码与模型可通过以下链接获取: 🔗 https://github.com/360CVGroup/FG-CLIP

成为VIP会员查看完整内容
1

相关内容

【NeurIPS2024】TableRAG:基于语言模型的百万标记表格理解
专知会员服务
37+阅读 · 2024年10月8日
【ICML2024】DoRA:权重分解的低秩适应
专知会员服务
20+阅读 · 2024年5月6日
【CVPR2024】VP3D:释放二维视觉提示以进行文本到三维生成
专知会员服务
15+阅读 · 2021年9月11日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
36+阅读 · 2020年9月2日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
457+阅读 · 2023年3月31日
Generalized Out-of-Distribution Detection: A Survey
Arxiv
15+阅读 · 2021年10月21日
Arxiv
17+阅读 · 2021年2月15日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
VIP会员
相关VIP内容
【NeurIPS2024】TableRAG:基于语言模型的百万标记表格理解
专知会员服务
37+阅读 · 2024年10月8日
【ICML2024】DoRA:权重分解的低秩适应
专知会员服务
20+阅读 · 2024年5月6日
【CVPR2024】VP3D:释放二维视觉提示以进行文本到三维生成
专知会员服务
15+阅读 · 2021年9月11日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
36+阅读 · 2020年9月2日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
457+阅读 · 2023年3月31日
Generalized Out-of-Distribution Detection: A Survey
Arxiv
15+阅读 · 2021年10月21日
Arxiv
17+阅读 · 2021年2月15日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
微信扫码咨询专知VIP会员