持续学习(CL)使得机器学习模型能够在缺乏旧任务数据的情况下,从不断变化的新训练数据中学习。最近,预训练的视觉Transformers结合提示微调已经显示出克服CL中的灾难性遗忘的希望。这些方法依赖于一池可学习的提示,这在跨任务共享知识时可能效率低下,导致性能较差。此外,缺乏细粒度层特定提示不允许这些方法充分表达提示对CL的强度。我们通过提出ConvPrompt,一种新颖的卷积提示创建机制来解决这些限制,该机制保持层次共享嵌入,使得层特定学习和跨任务更好的概念转移成为可能。智能地使用卷积使我们能够在不影响性能的情况下保持低参数开销。我们进一步利用大型语言模型生成每个类别的细粒度文本描述,这些描述用于获取任务相似性,并动态决定要学习的提示数量。广泛的实验表明,ConvPrompt的优越性,并且以显著更少的参数开销提高了SOTA约3%。我们还对各种模块进行了强大的消融实验,以解析不同组件的重要性。

成为VIP会员查看完整内容
17

相关内容

【NeurIPS2023】大型语言模型是零样本的时间序列预测者
专知会员服务
45+阅读 · 2023年10月13日
【AAAI2023】对比掩码自动编码器的自监督视频哈希
专知会员服务
14+阅读 · 2022年11月25日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
21+阅读 · 2021年9月27日
专知会员服务
36+阅读 · 2021年6月19日
专知会员服务
34+阅读 · 2020年11月29日
专知会员服务
29+阅读 · 2020年9月18日
【KDD2020】图神经网络生成式预训练
专知
21+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
133+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
327+阅读 · 2023年3月31日
Arxiv
16+阅读 · 2023年3月17日
Arxiv
67+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
相关VIP内容
【NeurIPS2023】大型语言模型是零样本的时间序列预测者
专知会员服务
45+阅读 · 2023年10月13日
【AAAI2023】对比掩码自动编码器的自监督视频哈希
专知会员服务
14+阅读 · 2022年11月25日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
21+阅读 · 2021年9月27日
专知会员服务
36+阅读 · 2021年6月19日
专知会员服务
34+阅读 · 2020年11月29日
专知会员服务
29+阅读 · 2020年9月18日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员