华为美研所推出EnAET：首次用自监督学习方法加强半监督学习

会员服务 ·

华为美研所推出EnAET：首次用自监督学习方法加强半监督学习

2019 年 12 月 2 日 新智元

新智元报道

来源：新智元投稿

整理编辑：元子

【新智元导读】Futurewei近日提出了半监督学习的新思路，不同于以前的半监督工作，该方法第一次通过引入复杂的图像变换信息进一步加强了模型的学习能力同时有效避免了过拟合问题。相比于以前的半监督和全监督算法，本文在模型相对简单的基础上，不仅实现了所有半监督任务的SOTA结果，并且在不适用validation数据集的情况下实现了CIFAR-10，STL-10数据集上全监督的SOTA结果。来新智元AI朋友圈和AI大咖们一起讨论吧。

Futurewei近日提出了半监督学习的新思路，不同于以前的半监督工作，该方法第一次通过引入复杂的图像变换信息进一步加强了模型的学习能力同时有效避免了过拟合问题。相比于以前的半监督和全监督算法，本文在模型相对简单的基础上，不仅实现了所有半监督任务的SOTA结果，并且在不适用validation数据集的情况下实现了CIFAR-10，STL-10数据集上全监督的SOTA结果。

1. 简介

EnAET全称是Self-Trained Ensemble AutoEncoding Transformations for Semi-Supervised Learning，本文首次引入图像变换信息利用自监督的方法来推动半监督学习。

通常来说，半监督学习希望达到两个目标，一是能够在有限标注样本情况下借助无标注样本完成模型学习，二是探索出一种方法能够解决over-fitting问题。EnAET通过自监督学习的思路，成功实现了这两个目标。同时，不同于传统思路专注于预测一致性和预测自信度的研究，本文首次提出了一种通用的自监督学习方法来加强半监督学习并取得了SOTA效果。

同时，EnAET首次探索了数据集极限情况下的模型学习，在每类仅有10张图片的情况下，在CIFAR-10取得了90.65%的准确率，在SVHN取得了83.08%的准确率。

2. 思路

EnAET最主要的贡献是以多种复杂图像变换作为切入点引入了一种新的自监督架构，通过这个架构我们不仅利用变换信息加强了模型的表征能力，而且进一步利用变换图片加强了预测一致性。不同于以前的基于变换的自监督方法，本文首次提出了融合多种变换的思想来进一步加强模型的表征能力，本文提出了两种基本变换方案spatial transformation（图1）和non-spatial transformation （图2）。

对于spatial变换而言，本文引入了四种经典的变换:projective, affine, similarity 和euclidean变换，详见表1. 对于non-spatial变换，引入了color，contrast，brightness和sharpen四种变换，并且将四种结合形成CCBS变换作为一种代表性的non-spatial变换加入EnAET框架。

图1 spatial transformation

从左到右依次是原图，projective变换，affine变换，similarity变换和euclidean变换。

图2 Non-Spatial Transformation

图片依次是：原图，color变换，contrast变换，brightness变换，sharpen变换，color+contrast变换，color+contrast+brightness变换，color+contrast+brightness+sharpen变换。

表1 spatial transformation详解

基于这两种变换的基础上，文章中提出了如图3所示的EnAET架构：

图3.EnAET算法示意图

简而言之，针对半监督中的分类网络，将其划分为两部分:编码器E和分类器C。同时针对不同变换tk提供不同的解码器Dk ,这里所有Dk的网络结构和C保持一致。对于不同变换后的图片和原图，E和C始终共享权重，这样做的原因是希望每种变换都能利用原图和变换后的图片经过E编码的特征预测，从而实现加强E表现性能同时避免过拟合的目标。