【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性 - 专知VIP

会员服务 ·

9

CVPR 2024 · 多模态大型语言模型 · 视觉提示 ·

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

尽管多模态大型语言模型（MLLMs）展示了有希望的多功能能力，它们在下游任务上的表现仍然不如专门的模型，这使得调整它们以增强其实用性变得必要。然而，微调方法需要对每个模型进行独立训练，导致巨大的计算和内存开销。在本文中，我们提出了一个新的设置，旨在通过一组为下游任务优化的共享参数来提高不同MLLMs的性能。为此，我们提出了可转移视觉提示（Transferable Visual Prompting，TVP），一种简单而有效的方法，用于生成可以转移到不同模型并在仅在一个模型上训练后提高其在下游任务上的表现的视觉提示。我们引入两种策略来解决现有视觉提示方法的跨模型特征污染问题，并增强学到的提示的可转移性，包括1) 特征一致性对齐：对提示的特征变化施加约束，以保持与任务无关的知识；2) 任务语义丰富：鼓励提示图像在语言指导下包含更丰富的任务特定语义。我们通过与6种现代MLLMs在从对象识别和计数到多模态推理和幻觉校正等广泛任务上的大量实验，验证了TVP的有效性。

成为VIP会员查看完整内容

17

相关内容

CVPR 2024

【CVPR2024】视觉-语言模型的高效测试时间调整

【CVPR2024】视觉-语言模型的高效测试时间调整

专知会员服务

18+阅读 · 3月30日

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

专知会员服务

18+阅读 · 2023年12月21日

【NeurIPS2023】强化学习中的安全探索：一种通用化的公式和算法

【NeurIPS2023】强化学习中的安全探索：一种通用化的公式和算法

专知会员服务

31+阅读 · 2023年10月6日

【ICML2023】通过离散扩散建模实现高效和度引导的图生成

【ICML2023】通过离散扩散建模实现高效和度引导的图生成

专知会员服务

18+阅读 · 2023年5月17日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知会员服务

23+阅读 · 2022年10月20日

【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成

【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成

专知会员服务

15+阅读 · 2021年10月23日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

18+阅读 · 2021年9月13日

【ICML2021】基于迁移的语义异常检测

专知会员服务

12+阅读 · 2021年9月8日

【ICML2021】学习对称解纠缠多对象表示的有效迭代平摊推理

专知会员服务

14+阅读 · 2021年6月9日

【ACMMM2020】零样本语义分割的上下文感知特征生成

【ACMMM2020】零样本语义分割的上下文感知特征生成

专知会员服务

15+阅读 · 2020年8月21日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

15+阅读 · 2023年4月12日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

20+阅读 · 2020年7月3日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

16+阅读 · 2020年6月7日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

11+阅读 · 2020年3月31日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

11+阅读 · 2020年2月12日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

1+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

22+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

4+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

4+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

131+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

30+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

70+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

135+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

52+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

325+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

86+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

53+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

111+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

15+阅读 · 2023年3月17日

VIP会员

相关主题

多模态大型语言模型

相关VIP内容

【CVPR2024】视觉-语言模型的高效测试时间调整

【CVPR2024】视觉-语言模型的高效测试时间调整

专知会员服务

18+阅读 · 3月30日

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

专知会员服务

18+阅读 · 2023年12月21日

【NeurIPS2023】强化学习中的安全探索：一种通用化的公式和算法

【NeurIPS2023】强化学习中的安全探索：一种通用化的公式和算法

专知会员服务

31+阅读 · 2023年10月6日

【ICML2023】通过离散扩散建模实现高效和度引导的图生成

【ICML2023】通过离散扩散建模实现高效和度引导的图生成

专知会员服务

18+阅读 · 2023年5月17日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知会员服务

23+阅读 · 2022年10月20日

【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成

【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成

专知会员服务

15+阅读 · 2021年10月23日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

18+阅读 · 2021年9月13日

【ICML2021】基于迁移的语义异常检测

专知会员服务

12+阅读 · 2021年9月8日

【ICML2021】学习对称解纠缠多对象表示的有效迭代平摊推理

专知会员服务

14+阅读 · 2021年6月9日

【ACMMM2020】零样本语义分割的上下文感知特征生成

【ACMMM2020】零样本语义分割的上下文感知特征生成

专知会员服务

15+阅读 · 2020年8月21日

热门VIP内容

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

15+阅读 · 2023年4月12日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

20+阅读 · 2020年7月3日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

16+阅读 · 2020年6月7日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

11+阅读 · 2020年3月31日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

11+阅读 · 2020年2月12日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

相关基金

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

1+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

22+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

4+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

4+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

131+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

30+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

70+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

135+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

52+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

325+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

86+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

53+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

111+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

15+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员