Google AI再出大杀器！自监督学习ImageNet识别率历史新高87.4%，Jeff Dean点赞Quoc Le新论文

2019 年 11 月 13 日 专知

【导读】今天Google AI大神Quoc Le在Twitter发布他们最新研究成果，使用自训练噪声student模型使得经典ImageNet分类准确率取得Top-1 87.4%和Top-5 98.2%的历史新高，充分证明自监督学习的威力！谷歌大脑负责人 Jeff Dean点赞！

论文地址：

https://www.zhuanzhi.ai/paper/1bf282a0a1d4a67799b524c8c4eca406

便捷下载：请关注专知公众号（点击上方蓝色专知关注）

后台回复“STI” 就可以获取《Self-training with Noisy Student improves ImageNet classification》下载链接~

在本文中，研究者首先在标注的 ImageNet 图像上训练了一个 EfficientNet 模型，然后用这个模型作为老师在 3 亿无标签图像上生成伪标签。然后研究者训练了一个更大的 EfficientNet 作为学生student模型，使用的数据则是正确标注图像和伪标注图像的混合数据。

这一过程不断迭代，每个新的学生模型作为下一轮的老师模型，在生成伪标签的过程中，教师模型不会被噪声干扰，所以生成的伪标注会尽可能逼真。但是在学生模型训练的过程中，研究者对数据加入了噪声，使用了诸如数据增强、dropout、随机深度等方法，使得学生模型在从伪标签训练的过程中更加艰难。

这一自训练模型，能够在 ImageNet 上达到 87.4% 的 top-1 精确度，这一结果比当前的 SOTA 模型表现提高了一个点。除此之外，该模型在 ImageNet 鲁棒性测试集上有更好的效果，它相比之前的 SOTA 模型能应对更多特殊情况。

摘要：我们提出了一个简单的自训练方法，该方法能够在ImageNet数据集上达到84.7%的准确率，与原先最好的模型相比，性能提高了1.0%。在健壮的测试集上，该方法把ImageNet-A top-1的准确率从16.6%提升到74.2%，ImageNet-C的平均损坏误差(mCE)从45.7下降到31.2，Image-P 的平均翻转率(mFR)从27.8下降到16.1.

为了实现这个结果，我们首先在标记好的ImageNet 图片集上训练了一个EfficientNet模型，并且将它作为’teacher’在300M的未标记图片上生成伪标签。然后，我们在有标签和伪标签数据集上训练了一个更大的EfficientNet模型作为’student’。我们通过把‘student’放回’teacher’位置来重复这个过程。在生成伪标签的过程中，’teacher’模型没有掺杂噪声以便于生成的伪标签尽可能的接近真实情况。但是在’student’模型的学习过程中，我们注入了噪声，比如数据增强，dropout,给’student’模型设置随机深度，这样使得添加了噪声的’student’模型不得不更加努力地学习这些伪标签数据。

方法非常simple！

1）在标注图像上训练一个教师模型；

2）利用该教师模型在未标注图像上生成伪标签（pseudo label）；

3）在标注和伪标注混合图像上训练一个学生模型。

4）最后，通过将学生模型当做教师模型，研究者对算法进行了几次迭代，以生成新的伪标签和训练新的学生模型。

完全与最先进的ImageNet方法比较。Noisy student是我们的方法。Noisy Student+ EfficientNet 11%比你最喜欢ResNet-50😉

以 EfficientNet-L2 为主要架构的 Noisy Student 实现了 87.4% 的 Top-1 准确率，它显著超越了之前采用 EfficientNet 的准确率。其中 2.4% 的性能增益主要有两个来源：更大的模型（+0.5%）和 Noisy Student（+1.9%）。也就是说，Noisy Student 对准确率的贡献要大于架构的加深。

为了直观理解三个鲁棒性基准的大幅度提升，下图中展示了一些图片，其中基准模型识别错误，而 Noisy Student 模型的预测则正确。

结论

之前关于弱监督学习的工作需要数十亿的弱标记数据来改进最先进的ImageNet模型。在这项工作中，我们证明了使用未标记的图像可以显著提高最先进的ImageNet模型的准确性和鲁棒性。我们发现，自我训练是一种简单而有效的算法，可以大规模地利用未标记的数据。我们改进了它给学生制造噪音，让他们学到老师学不到的东西。这种方法被称为“嘈杂学生的自我训练”，也得益于Efficient的大容量。

实验结果表明，Noisy Student和EfficientNet的自训练正确率为87.4%，比无噪声学生高1.9%。这一结果也是一种新的最先进的方法，比以前使用弱标记数据数量级的最佳方法要好1%。我们的工作的一个重要贡献是表明，Noisy Student可能有助于解决计算机视觉模型中鲁棒性的缺乏。我们的实验表明，我们的模型显著提高了ImageNet-A、C和P的准确性，而不需要刻意增加数据。例如，在ImageNet-A中，嘈杂的Student达到了74.2%的top-1精度，这大约比以前的最先进的模型精度高57%。

视频介绍

https://www.youtube.com/watch?v=Y8YaU9mv_us

参考链接：

https://mp.weixin.qq.com/s/mwvOFOmC9CoAIGO1bf6Riw

https://www.youtube.com/watch?v=Y8YaU9mv_us

更多关于“ImageNet”的论文知识资料，请登录专知网站www.zhuanzhi.ai,查看：

https://www.zhuanzhi.ai/topic/2001583921558500/paper

-END-

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，或者点击“阅读原文”使用，获取更多AI知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识资料和与专家交流咨询！

请加专知小助手微信（扫一扫如下二维码添加）， 获取专知VIP会员码 ，加入专知人工智能主题群，咨询技术商务合作~

点击“阅读原文”，注册使用专知

登录查看更多

相关内容

ImageNet (数据集)

关注 0

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象;在至少一百万个图像中，还提供了边界框。ImageNet包含2万多个类别; [2]一个典型的类别，如“气球”或“草莓”，包含数百个图像。第三方图像URL的注释数据库可以直接从ImageNet免费获得;但是，实际的图像不属于ImageNet。自2010年以来，ImageNet项目每年举办一次软件比赛，即ImageNet大规模视觉识别挑战赛（ILSVRC），软件程序竞相正确分类检测物体和场景。 ImageNet挑战使用了一个“修剪”的1000个非重叠类的列表。2012年在解决ImageNet挑战方面取得了巨大的突破，被广泛认为是2010年的深度学习革命的开始。

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

32+阅读 · 2020年3月30日

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

专知会员服务

33+阅读 · 2020年2月15日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日