【AAAI2024】LAMM: 多模态提示学习的标签对齐 - 专知VIP

会员服务 ·

23

AAAI 2024 · 多模态提示学习 · 标签对齐 ·

2023 年 12 月 14 日

【AAAI2024】LAMM: 多模态提示学习的标签对齐

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着CLIP等预训练视觉-语言（VL）模型在视觉表示任务中的成功，将预训练模型迁移到下游任务已成为一个关键范式。最近，源自自然语言处理（NLP）的提示调整范式在VL领域取得了显著进展。然而，早期方法主要集中于为文本和视觉输入构建提示模板，忽略了VL模型与下游任务之间类别标签表示的差距。为了应对这一挑战，我们引入了一种名为LAMM的创新标签对齐方法，可以通过端到端训练动态调整下游数据集的类别嵌入。此外，为了实现更合适的标签分布，我们提出了一个分层损失，包括参数空间、特征空间和逻辑空间的对齐。我们在11个下游视觉数据集上进行了实验，并证明了我们的方法显著提高了现有多模态提示学习模型在小样本场景中的性能，与最先进方法相比，在16次射击上平均准确率提高了2.31(%)。此外，我们的方法在持续学习方面与其他提示调整方法相比显示出了优势。重要的是，我们的方法与现有的提示调整方法是协同的，并可以在它们的基础上提高性能。我们的代码和数据集将在https://github.com/gaojingsheng/LAMM上公开。

成为VIP会员查看完整内容

41

相关内容

AAAI 2024

【WWW2024】RecDCL: 双重对比学习用于推荐

【WWW2024】RecDCL: 双重对比学习用于推荐

专知会员服务

23+阅读 · 2024年1月30日

【AAAI2024】TimesURL: 自监着对比学习在通用时间序列表征学习中的应用

【AAAI2024】TimesURL: 自监着对比学习在通用时间序列表征学习中的应用

专知会员服务

35+阅读 · 2023年12月28日

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

专知会员服务

32+阅读 · 2023年4月25日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【ICML2021】GeomCA: 数据表示几何评估

专知会员服务

15+阅读 · 2021年9月11日

【ICML2021】具有超参数重要性的可解释的自动图表示学习

专知会员服务

26+阅读 · 2021年7月18日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

【CVPR2020-Tutorial】视觉的图网络结构表示学习，Google Chen Sun

【CVPR2020-Tutorial】视觉的图网络结构表示学习，Google Chen Sun

专知会员服务

43+阅读 · 2020年6月16日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

专知

5+阅读 · 2023年4月6日

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

语义Web知识库补全关键技术研究

国家自然科学基金

15+阅读 · 2017年12月31日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

两类Markov排队模型的衰减性质

国家自然科学基金

1+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

X-Mesh: A new approach for the simulation of two-phase flow with sharp interface

Arxiv

0+阅读 · 2024年2月1日

LILAC: Log Parsing using LLMs with Adaptive Parsing Cache

Arxiv

0+阅读 · 2024年2月1日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

218+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

482+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

79+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

Deep Face Recognition: A Survey

Deep Face Recognition: A Survey

Arxiv

18+阅读 · 2019年2月12日

VIP会员

相关主题

多模态提示学习

相关VIP内容

【WWW2024】RecDCL: 双重对比学习用于推荐

【WWW2024】RecDCL: 双重对比学习用于推荐

专知会员服务

23+阅读 · 2024年1月30日

【AAAI2024】TimesURL: 自监着对比学习在通用时间序列表征学习中的应用

【AAAI2024】TimesURL: 自监着对比学习在通用时间序列表征学习中的应用

专知会员服务

35+阅读 · 2023年12月28日

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

专知会员服务

32+阅读 · 2023年4月25日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【ICML2021】GeomCA: 数据表示几何评估

专知会员服务

15+阅读 · 2021年9月11日

【ICML2021】具有超参数重要性的可解释的自动图表示学习

专知会员服务

26+阅读 · 2021年7月18日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

【CVPR2020-Tutorial】视觉的图网络结构表示学习，Google Chen Sun

【CVPR2020-Tutorial】视觉的图网络结构表示学习，Google Chen Sun

专知会员服务

43+阅读 · 2020年6月16日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

专知

5+阅读 · 2023年4月6日

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

15+阅读 · 2017年12月31日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

两类Markov排队模型的衰减性质

国家自然科学基金

1+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

相关论文

X-Mesh: A new approach for the simulation of two-phase flow with sharp interface

Arxiv

0+阅读 · 2024年2月1日

LILAC: Log Parsing using LLMs with Adaptive Parsing Cache

Arxiv

0+阅读 · 2024年2月1日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

218+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

482+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

79+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

Deep Face Recognition: A Survey

Deep Face Recognition: A Survey

Arxiv

18+阅读 · 2019年2月12日

微信扫码咨询专知VIP会员