【ICML2025】FG-CLIP：细粒度视觉与文本对齐 - 专知VIP

会员服务 ·

1

ICML 2025 · CLIP ·

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

**对比语言-图像预训练（CLIP）**在图文检索和零样本分类等多模态任务中表现出色，但由于其侧重于粗粒度的简短图文描述，在细粒度理解方面存在不足。为了解决这一问题，我们提出了 细粒度CLIP（FG-CLIP），通过三项关键创新提升细粒度理解能力。首先，我们利用大规模多模态模型生成了 16亿条长文本描述-图像对，以捕捉全局语义细节。其次，我们构建了一个高质量数据集，包含 1200万张图像和4000万个区域级别的边界框，并与详细文本描述对齐，从而确保精确、具有上下文信息的表示。第三，我们引入了 1000万个具有挑战性的细粒度负样本，提升模型区分细微语义差异的能力。我们构建了一个综合性数据集，命名为 FgGRN，将高质量的区域级注释与具有挑战性的细粒度负样本整合在一起，并为这些数据精心设计了相应的训练方法。大量实验表明，FG-CLIP 在多种下游任务中均优于原始的 CLIP 和其他最新方法，包括细粒度理解、开放词汇物体检测、图文检索以及通用多模态基准测试。这些结果突显了 FG-CLIP 在捕捉细粒度图像细节和提升整体模型性能方面的有效性。数据、代码和模型已开源，地址为：https://github.com/360CVGroup/FG-CLIP。

成为VIP会员查看完整内容

1

相关内容

ICML 2025

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

12+阅读 · 2月25日

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

专知会员服务

13+阅读 · 2024年10月16日

【CVPR2024】AMU-Tuning：基于CLIP的少样本学习中的有效对数偏差

【CVPR2024】AMU-Tuning：基于CLIP的少样本学习中的有效对数偏差

专知会员服务

19+阅读 · 2024年4月28日

【CVPR2024】VidLA: 大规模视频-语言对齐

【CVPR2024】VidLA: 大规模视频-语言对齐

专知会员服务

20+阅读 · 2024年3月31日

【NeurIPS2023】基于语义对齐的潜空间翻译

【NeurIPS2023】基于语义对齐的潜空间翻译

专知会员服务

21+阅读 · 2023年11月2日

【AAAI2023】不确定性感知的图像描述生成

【AAAI2023】不确定性感知的图像描述生成

专知会员服务

26+阅读 · 2022年12月4日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知会员服务

16+阅读 · 2022年11月27日

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

专知会员服务

33+阅读 · 2022年3月18日

【ICML2021】REPAINT:深度强化学习中的知识迁移

专知会员服务

23+阅读 · 2021年9月5日

【ICML2021】二值化网络（BNN）训练与优化

专知会员服务

15+阅读 · 2021年7月24日

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

39+阅读 · 2023年4月13日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

【ICLR2021】彩色化变换器，Colorization Transformer

【ICLR2021】彩色化变换器，Colorization Transformer

专知

12+阅读 · 2021年2月10日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

专知

12+阅读 · 2020年9月30日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

NLP（自然语言处理）扫盲

NLP（自然语言处理）扫盲

大数据和云计算技术

20+阅读 · 2017年7月9日

基于各向异性点光源的近场光度学三维重建问题研究

国家自然科学基金

2+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Stokes/Darcy 耦合问题的数值方法及预处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量稀疏L1图的半监督极化SAR影像地物分类

国家自然科学基金

0+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

2+阅读 · 2015年12月31日

基于张量模式的DTI数据模式分类及其分布式算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

高光谱遥感影像联合字典学习与分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

一类极大加和逆优化问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

99+阅读 · 2023年4月11日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

79+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

461+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

142+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

168+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

49+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

相关VIP内容

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

12+阅读 · 2月25日

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

专知会员服务

13+阅读 · 2024年10月16日

【CVPR2024】AMU-Tuning：基于CLIP的少样本学习中的有效对数偏差

【CVPR2024】AMU-Tuning：基于CLIP的少样本学习中的有效对数偏差

专知会员服务

19+阅读 · 2024年4月28日

【CVPR2024】VidLA: 大规模视频-语言对齐

【CVPR2024】VidLA: 大规模视频-语言对齐

专知会员服务

20+阅读 · 2024年3月31日

【NeurIPS2023】基于语义对齐的潜空间翻译

【NeurIPS2023】基于语义对齐的潜空间翻译

专知会员服务

21+阅读 · 2023年11月2日

【AAAI2023】不确定性感知的图像描述生成

【AAAI2023】不确定性感知的图像描述生成

专知会员服务

26+阅读 · 2022年12月4日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知会员服务

16+阅读 · 2022年11月27日

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

专知会员服务

33+阅读 · 2022年3月18日

【ICML2021】REPAINT:深度强化学习中的知识迁移

专知会员服务

23+阅读 · 2021年9月5日

【ICML2021】二值化网络（BNN）训练与优化

专知会员服务

15+阅读 · 2021年7月24日

热门VIP内容

开通专知VIP会员享更多权益服务

中文版 | 人工智能与未来战争：算法战的崛起

《建模与仿真（M&S）导论》32页最新报告

《美陆军多域作战训练范围指南（适用于连级至旅级指挥官）》最新84页报告

《超视距空战中的仿真与机器学习技术综述》最新长综述

相关资讯

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

39+阅读 · 2023年4月13日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

【ICLR2021】彩色化变换器，Colorization Transformer

【ICLR2021】彩色化变换器，Colorization Transformer

专知

12+阅读 · 2021年2月10日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

专知

12+阅读 · 2020年9月30日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

NLP（自然语言处理）扫盲

NLP（自然语言处理）扫盲

大数据和云计算技术

20+阅读 · 2017年7月9日

相关基金

基于各向异性点光源的近场光度学三维重建问题研究

国家自然科学基金

2+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Stokes/Darcy 耦合问题的数值方法及预处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量稀疏L1图的半监督极化SAR影像地物分类

国家自然科学基金

0+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

2+阅读 · 2015年12月31日

基于张量模式的DTI数据模式分类及其分布式算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

高光谱遥感影像联合字典学习与分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

一类极大加和逆优化问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

99+阅读 · 2023年4月11日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

79+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

461+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

142+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

168+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

49+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员