We propose an approach without any forgetting to continual learning for the task-aware regime, where at inference the task-label is known. By using ternary masks we can upgrade a model to new tasks, reusing knowledge from previous tasks while not forgetting anything about them. Using masks prevents both catastrophic forgetting and backward transfer. We argue -- and show experimentally -- that avoiding the former largely compensates for the lack of the latter, which is rarely observed in practice. In contrast to earlier works, our masks are applied to the features (activations) of each layer instead of the weights. This considerably reduces the number of mask parameters for each new task; with more than three orders of magnitude for most networks. The encoding of the ternary masks into two bits per feature creates very little overhead to the network, avoiding scalability issues. To allow already learned features to adapt to the current task without changing the behavior of these features for previous tasks, we introduce task-specific feature normalization. Extensive experiments on several finegrained datasets and ImageNet show that our method outperforms current state-of-the-art while reducing memory overhead in comparison to weight-based approaches.


翻译:我们建议一种方法,但不会忘记持续学习任务意识制度,因为根据这种制度可以推断任务标签为已知的。通过使用永恒面具,我们可以将一个模型升级到新的任务,将以前任务的知识重新用于新的任务,同时不忘记任何关于它们的知识。使用面具既防止灾难性的遗忘,又防止后向转移。我们争论 -- -- 并实验性地表明 -- -- 避免前者在很大程度上弥补了后者的缺失,而在实践中很少看到后者。与以前的工作不同,我们的面具被用于每个层的特征(活动)而不是重量。这大大减少了每项新任务的面具参数数量;大多数网络有3个以上的规模级;将旧面具编码为每个特性的两位数,给网络造成很小的间接影响,避免可缩放问题。为了让已经学到的特征适应当前的任务,而不改变这些特性在以往工作中的行为,我们引入了特定任务的特点正常化。关于若干精细的数据集和图像网络的广泛实验表明,我们的方法超出了当前状态,同时将记忆间接与基于重量的方法进行比较。

0
下载
关闭预览

相关内容

最新《生成式对抗网络》简介,25页ppt
专知会员服务
168+阅读 · 2020年6月28日
元学习(meta learning) 最新进展综述论文
专知会员服务
275+阅读 · 2020年5月8日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
已删除
将门创投
6+阅读 · 2019年4月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Arxiv
0+阅读 · 2021年6月5日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
4+阅读 · 2019年4月9日
Arxiv
6+阅读 · 2018年12月10日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
已删除
将门创投
6+阅读 · 2019年4月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Top
微信扫码咨询专知VIP会员