CVPR 2019 开源论文 | 基于翻译向量的图像翻译

2019 年 10 月 13 日 PaperWeekly

作者丨薛洁婷

学校丨北京交通大学硕士生

研究方向丨图像翻译

图像翻译通常要解决两个问题：将原域图像翻译至目标域并且翻译后的图像和原域图像保持相似性。我们利用 GAN 可以很好的解决第一个问题，而针对第二个问题大多数模型都是通过限制生成器来实现，比如在生成器某层中使用跨域权重耦合或者设计循环一致性损失等。但是限制生成器可能不仅会影响模型的多样性而且还会阻止模型学习某些必要映射。

因此作者提出了利用三个网络来进行图像翻译：Generator, Discriminator 以及 Siamese，其中前两个网络主要解决将原域图像翻译至目标域的问题，Siamese 网络用于学习图像高级语义特征从而保证翻译后的图像与原域图像相似。

模型架构

TraVeLGAN 主要依赖于三个网络，其模型架构如图 1。其中 Generator 和 Discriminator 与之前大多数基于 GAN 的图像翻译模型类似，都是基于 U-Net 架构来将原域图像翻译至目标域图像，Siamese 网络用于提取图像的高级语义特征。

▲ 图1. TraVeLGAN模型架构

对于 Siamese 网络而言其希望可以保证原域任意图像间的高级语义特征差：与对应翻译后图像间的高级语义特征差保持一致，即：

作者将定义为模型的翻译向量，这部分的损失函数如下。不同于 Generator 和 Discriminator 之间互相对抗的关系，这里的 Siamese 和 Generator 是互相协作的，它们都希望能最小化损失。

为了避免 Siamese 网络偏向于学习使损失为 0 的情况，其还必须保证每个点至少与潜在空间中的其他点相距 δ，即，因此模型整体的的损失函数如下，对于鉴别器而言其仅优化对抗损失即可。

实验结果

作者主要针对传统图像翻译模型经常采用的 Apples to oranges, Van Gogh to landscape photo, Sketch to shoe 等异构性不大的数据集进行对比实验，另外也选取了 ImageNet 中 abacus, crossword, volcano, jack-o-lantern 等异构性较大的数据集进行实验。

▲ 图2. 相似域翻译的实验结果

对于相似域间的图像翻译效果的评估，作者使用了 SSIM 结构相似性来衡量，结果如表 1 所示，其中主要的对比实验是 CycleGAN 及其变种，可以看出对于相似域间的图像翻译 TraVeLGAN 可以达到和 CycleGAN 类似的效果，也就是我们完全可以不对生成器进行限制就能达到良好的翻译结果，如图 2 所示。

▲ 表1. 相似域间的 SSIM 得分

对于强异构性的图像翻译，作者发现加入 Siamese 网络后 TraVeLGAN 可以学习到更高级的语义特征。如图 3 所示，TraVeLGAN 可以将算盘中的黑色珠子映射到填字游戏中的黑/白方块中，而 CycelGAN 仅能学习到将黑色珠子映射为白色方块，即在强异构性的图像翻译中 TraVeLGAN 比 CycelGAN 能产生更合理更多样的输出结果。

▲ 图3. TraVeLGAN vs CycelGAN

由于强异构性域图像翻译的目标不再是希望翻译后的图像和原域图像相似，因此作者采用了 FID 得分以及鉴别器得分来衡量模型效果，由表 2 可以看出相比 CycelGAN 及其变种 TraVeLGAN 对于强异构性域的图像翻译效果更好，具体效果如图 4 所示。

▲ 表2. 强异构型域间 FID 得分

▲ 图4. 强异构性域间翻译效果

总结

目前绝大多数的无监督图像翻译都是通过限制生成器来保证翻译后图像与原域图像的相似性，而这种限制可能会影响模型的表达能力，限制其翻译的多样性。作者发现加入 Siamese 网络可以帮助模型在不损害原有翻译能力的前提下进行强异构型的图像翻译，并且能有效的指导生成器生成更加合理逼真的结果，这无疑为之后更加灵活的图像翻译模型设计提供了新的思路。