ICCV 2019 | Lifelong GAN：基于持续学习的条件图像生成模型

2019 年 8 月 27 日 PaperWeekly

作者丨薛洁婷

学校丨北京交通大学硕士生

研究方向丨图像翻译

研究动机

持续学习是指希望模型能和人一样能基于过去的先验知识来快速准确的解决当前任务，然而对于人类而言与生俱来的能力对于模型来说却宛如大海捞针般困难。

当我们使用新的数据集去训练已有的模型时，该模型将会失去对原数据集识别的能力即模型会发生灾难性遗忘问题（如图 1 所示：edges-shoes 模型在经过 segmentations-facades 训练后原有的参数被完全打乱，无法再完成 edges-shoes 任务）。

▲ 图1. 灾难性遗忘问题

这一问题对于持续学习而言是一个非常巨大的挑战，目前比较主流的解决方案是让当前任务数据集结合原数据集去训练模型，但这样会导致模型的可扩展性很差，当添加一个新的任务时存储和训练时间都会同时增加，并且有些预训练模型的数据是难以获取的，因此作者提出了更通用的持续学习模型框架，该框架用于解决条件图像生成问题。

模型介绍

Lifelong GAN 模型基于 BicycleGAN 的架构，BicycleGAN 的架构可参考 [1]。模型主要使用了知识蒸馏来解决持续学习中的灾难性遗忘问题，即模型在学习当前任务的同时需要记住原任务的知识，在具体训练中通过鼓励当前网络和原网络产生相似的结果来迫使模型从原任务的训练网络中提取出信息并且加入到当前网络中。

架构如图 2 所示，其中

表示当前任务的第 t 次训练，

表示当前任务的第 t-1 次训练。

▲ 图2. LifelongGAN模型架构

作者希望在

训练中产生的结果和

训练结果保持一致性，即对于 cVAE-DL 阶段的训练中希望

训练产生的目标域图像的编码结果以及生成的图像与

训练时保持一致。

对于 cLR-GAN 阶段希望

训练产生的生成结果以及生成结果的编码与

训练时保持一致。

对于 Lifelong GAN 来说其损失函数就是两部分损失之和。

但是我们知道 BicycleGAN 之所以结合 cVAE-DL 以及 cLR-GAN 就是为了增加模型的多样性，但是上述两个损失函数都希望训练时与原训练结果保持一致，这两者的目标是矛盾的，因此作者提出在具体训练时使用辅助图像来解决这一问题，即从训练数据中随机采样小图像块并将它们一起剪切，或者交换原域和目标域图像来产生辅助图像，这两种方案都不会让模型产生过拟合问题。

实验结果

作者将条件图像生成问题分为基于图像条件的图像生成以及基于标签条件的图像生成，并从这两个方面分别评估了模型的性能。

针对基于图像条件的图像生成作者在 MNIST 数据集以及 Image-to-Image 数据集（如 edges-shoes,segmentations-facades 等）上计算其 Acc, r-Acc 以及 LPIPS 得分来评估，由图 3 可以看出和 Sequential Fine-tuning 以及 Joint Learning（使用全部数据集来训练）相比 Lifelong GAN 的表现效果与JL相近，但 Lifelong GAN 不需要使用全部数据集。

▲ 图3. 基于图像条件的图像生成

针对基于标签条件的图像生成问题作者采用了 MNIST 数据集以及 Flower 数据集进行评估。

▲ 图4. 基于标签条件的图像生成

总结

本文作者首次提出将知识蒸馏应用于持续学习模型中，并提出了更通用的（可以应用于基于标签条件以及图像条件的图像生成问题上）的条件图像生成模型。整个模型的设计非常巧妙，避免了使用原数据集带来的开销问题。从实验结果可以看出 Lifelong GAN 的效果和使用全数据集的效果类似，进一步证明了模型的有效性。

参考文献

[1] J.-Y. Zhu, R. Zhang, D. Pathak, T. Darrell, A. A. Efros, O. Wang, and E. Shechtman. Toward multimodal image-to image translation. In Advances in Neural Information Processing Systems (NIPS), 2017.