【CVPR2024】卷积提示"遇见了语言模型的持续学习 - 专知VIP

会员服务 ·

11

CVPR 2024 · 大语言模型 · 持续学习 ·

【CVPR2024】卷积提示"遇见了语言模型的持续学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

持续学习（CL）使得机器学习模型能够在缺乏旧任务数据的情况下，从不断变化的新训练数据中学习。最近，预训练的视觉Transformers结合提示微调已经显示出克服CL中的灾难性遗忘的希望。这些方法依赖于一池可学习的提示，这在跨任务共享知识时可能效率低下，导致性能较差。此外，缺乏细粒度层特定提示不允许这些方法充分表达提示对CL的强度。我们通过提出ConvPrompt，一种新颖的卷积提示创建机制来解决这些限制，该机制保持层次共享嵌入，使得层特定学习和跨任务更好的概念转移成为可能。智能地使用卷积使我们能够在不影响性能的情况下保持低参数开销。我们进一步利用大型语言模型生成每个类别的细粒度文本描述，这些描述用于获取任务相似性，并动态决定要学习的提示数量。广泛的实验表明，ConvPrompt的优越性，并且以显著更少的参数开销提高了SOTA约3％。我们还对各种模块进行了强大的消融实验，以解析不同组件的重要性。

成为VIP会员查看完整内容

17

相关内容

CVPR 2024

【CVPR2024】预训练的视觉和语言变换器是少样本增量学习器

【CVPR2024】预训练的视觉和语言变换器是少样本增量学习器

专知会员服务

18+阅读 · 4月7日

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

专知会员服务

45+阅读 · 2023年10月13日

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

专知会员服务

30+阅读 · 2023年5月19日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知会员服务

28+阅读 · 2023年4月7日

【AAAI2023】对比掩码自动编码器的自监督视频哈希

【AAAI2023】对比掩码自动编码器的自监督视频哈希

专知会员服务

14+阅读 · 2022年11月25日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

27+阅读 · 2022年1月24日

【ICML2021】面向个性化学习的模型融合

专知会员服务

21+阅读 · 2021年9月27日

【ICML2021】图对比学习自动化

专知会员服务

36+阅读 · 2021年6月19日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

34+阅读 · 2020年11月29日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

29+阅读 · 2020年9月18日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

15+阅读 · 2020年12月9日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

37+阅读 · 2020年9月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

21+阅读 · 2020年7月3日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知

10+阅读 · 2020年4月20日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

10+阅读 · 2020年3月17日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

机器之心

12+阅读 · 2018年4月16日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

22+阅读 · 2015年12月31日

数据库驱动机会性频谱接入中的动态分区问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

1+阅读 · 2015年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

8+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

133+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

30+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

72+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

141+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

327+阅读 · 2023年3月31日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

68+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

16+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

21+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

67+阅读 · 2022年9月7日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

VIP会员

相关主题

大语言模型

相关VIP内容

【CVPR2024】预训练的视觉和语言变换器是少样本增量学习器

【CVPR2024】预训练的视觉和语言变换器是少样本增量学习器

专知会员服务

18+阅读 · 4月7日

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

专知会员服务

45+阅读 · 2023年10月13日

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

专知会员服务

30+阅读 · 2023年5月19日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知会员服务

28+阅读 · 2023年4月7日

【AAAI2023】对比掩码自动编码器的自监督视频哈希

【AAAI2023】对比掩码自动编码器的自监督视频哈希

专知会员服务

14+阅读 · 2022年11月25日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

27+阅读 · 2022年1月24日

【ICML2021】面向个性化学习的模型融合

专知会员服务

21+阅读 · 2021年9月27日

【ICML2021】图对比学习自动化

专知会员服务

36+阅读 · 2021年6月19日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

34+阅读 · 2020年11月29日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

29+阅读 · 2020年9月18日

热门VIP内容

相关资讯

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

15+阅读 · 2020年12月9日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

37+阅读 · 2020年9月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

21+阅读 · 2020年7月3日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知

10+阅读 · 2020年4月20日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

10+阅读 · 2020年3月17日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

机器之心

12+阅读 · 2018年4月16日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

22+阅读 · 2015年12月31日

数据库驱动机会性频谱接入中的动态分区问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

1+阅读 · 2015年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

8+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

133+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

30+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

72+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

141+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

327+阅读 · 2023年3月31日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

68+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

16+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

21+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

67+阅读 · 2022年9月7日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

微信扫码咨询专知VIP会员