【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

2020 年 3 月 5 日 专知

【导读】如何利用未标记数据进行机器学习是当下研究的热点。最近自监督学习、对比学习等提出用于解决该问题。最近来自Google大脑团队的Luong博士介绍了无标记数据学习的进展，半监督学习以及他们最近重要的两个工作：无监督数据增强和自训练学习，是非常好的前沿材料。

深度学习尽管取得了很大成功，但通常在小标签训练集中表现不佳。利用未标记数据改善深度学习一直是一个重要的研究方向，其中半监督学习是最有前途的方法之一。在本次演讲中，Luong博士将介绍无监督数据增强（UDA），这是我们最近的半监督学习技术，适用于语言和视觉任务。使用UDA，我们仅使用一个或两个数量级标记较少的数据即可获得最先进的性能。

在本次演讲中，Luong博士首先解释了基本的监督机器学习。在机器学习中，计算机视觉的基本功能是利用图像分类来识别和标记图像数据。监督学习需要输入和标签才能与输入相关联。通过这样做，您可以教AI识别图像是什么，无论是对象，人类，动物等。Luong博士继续进一步解释神经网络是什么，以及它们如何用于深度学习。这些网络旨在模仿人类大脑的功能，并允许AI自己学习和解决问题。

https://t.co/DBTQH2xHHL?amp=1

https://nlp.stanford.edu/~lmthang/

Google Brain高级科学家, learning /w unlabeled data (NoisyStudent, ELECTRA). PhD @StanfordNLP

《Unsupervised Data Augmentation for Consistency Training》

文章地址：
https://arxiv.org/pdf/1904.12848v2.pdf
代码地址
https://github.com/google-research/ud

UDA方法主要利用了上述半监督方法中的第一种，即自洽正则化。其训练框架图如图所示。

该方法思路也比较简单：对于带标签数据，直接计算分类损失；对不带标签的增广后的数据，计算模型当前对其的预测值与原始数据的预测的KL散度损失，最终两种损失按一定比例相加得到最终损失。

本篇文章探索了多种增广数据的方法，除了图像领域的旋转、扭曲方法等，也包括NLP领域的反向翻译(Back-translation)和TF-IDF词替换，对比它们对于半监督学习效果的影响，证明了有针对性的数据增强效果明显优于无针对性的数据增强。同时，本文章还提出了一种训练技巧——TSA“数据退火算法”，用于解决对于少量的有标签数据，模型前期快速过拟合的问题。

Self-training with Noisy Student improves ImageNet classification

作者：Qizhe Xie、Eduard Hovy、Minh-Thang Luong、Quoc V. Le
论文链接：https://arxiv.org/pdf/1911.04252.pdf

摘要： 在本文中，研究者首先在标注的 ImageNet 图像上训练了一个 EfficientNet 模型，然后用这个模型作为老师在 3 亿无标签图像上生成伪标签。然后研究者训练了一个更大的 EfficientNet 作为学生模型，使用的数据则是正确标注图像和伪标注图像的混合数据。这一过程不断迭代，每个新的学生模型作为下一轮的老师模型，在生成伪标签的过程中，教师模型不会被噪声干扰，所以生成的伪标注会尽可能逼真。但是在学生模型训练的过程中，研究者对数据加入了噪声，使用了诸如数据增强、dropout、随机深度等方法，使得学生模型在从伪标签训练的过程中更加艰难。这一自训练模型，能够在 ImageNet 上达到 87.4% 的 top-1 精确度，这一结果比当前的 SOTA 模型表现提高了一个点。除此之外，该模型在 ImageNet 鲁棒性测试集上有更好的效果，它相比之前的 SOTA 模型能应对更多特殊情况。