【干货】李沐等人:CNN图像分类Trick合集(附详细代码)

2018 年 12 月 11 日 GAN生成式对抗网络

来源:专知

【导读】近日由李沐大神带领的一组AWS的研究者们发布了在长时间实践中总结的用CNN网络做图像分类中的调参技巧,他们研究了一系列训练过程和模型架构的改进方法,并在在多个神经网络架构和数据集上评估它们,并研究它们对最终模型准确率的影响。并且文章中也表示一些特定的技巧可以显著提高模型的准确度,将它们组合在一起可以进一步提高模型的精度。对深度学习调参痛苦的同学建议仔细学习这篇论文。


题目: Bag of Tricks for Image Classification with Convolutional Neural Networks

作者:Tong He, Zhi Zhang, Hang Zhang, Zhongyue Zhang, Junyuan Xie, Mu Li


【摘要】图像分类研究最近取得的许多进展可以归因于训练过程的改进,例如数据增强和优化方法的改变。然而,大多数改进要么只是作为实现细节被简要地提到,要么只在源代码中可见。在本文中,我们将研究这些改进的一系列集合,并通过ablation study评估它们对最终模型精度的影响。我们将证明,通过将这些改进组合在一起,我们能够显著改进各种CNN模型。例如,我们将ResNet-50在ImageNet上的top-1验证精度从75.3%提高到79.29%。我们还将证明,图像分类准确性的提高,可以在目标检测和语义分割等其他应用领域带来更好的迁移学习性能。


参考链接:

https://arxiv.org/abs/1812.01187

代码链接:

https://github.com/dmlc/gluon-cv


引言

自2012年引入AlexNet[15]以来,深度卷积神经网络已经成为图像分类的主要方法。从那时起,各种各样的新架构被提出,包括VGG[24]、NiN[16]、Inception[1]、ResNet[9]、DenseNet[13]和NASNet[34]。同时,我们也看到了模型精度不断提高的趋势。例如,ImageNet[23]上的top-1验证准确率已经从62.5% (AlexNet)提高到82.7% (NASNet-A)。


然而,这些进步并不仅仅来自改进的模型体系结构。训练过程的改进,包括损失函数的改变、数据预处理和优化方法也发挥了重要作用。在过去几年中已经提出了大量这样的改进,但是受到的关注相对较少。在文献中,大多数只是作为实现细节简要提及,而其他只能在源代码中找到。


在本文中,作者将研究一组训练过程和模型体系结构的改进,这些改进提高了模型的准确性,但几乎没有改变计算复杂度。其中许多都是一些小的“技巧”,如修改特定卷积层的步幅大小或调整学习率。但总的来说,它们会产生很大的影响。论文将在多个网络架构和数据集上对它们进行评估,并报告它们对最终模型精度的影响。


文章中的实证评估表明,一些特定的技巧可以显著提高模型的准确度,将它们组合在一起可以进一步提高模型的精度。在应用所有技巧之后,将ResNet-50与表1中的其他相关网络进行比较。请注意,这些技巧将ResNet- 50在ImageNet上的top-1验证准确率从75.3%提高到79.29%。它还优于其他更新和改进的网络架构,如SE-ResNeXt-50。此外,文章中还展示了将提出的方法可以推广到其他网络(Inception V3[1]和MobileNet[11])和数据集(Place365[32])。进一步证明,使用提出的技巧训练的模型在其他应用领域(如目标检测和语义分割),可以带来更好的迁移学习性能。


论文大纲。

首先在第2节中建立了一个BaseLine训练过程,

然后在第3节中讨论了一些有效训练的技巧。

在第4节中,回顾了ResNet的三个小型模型体系结构调整,并提出了一个新的改进。

然后在第5节中讨论另外四个训练过程的改进。

最后,在第六节中研究这些更准确的模型是否有助于迁移学习。


注意:论文中的模型实现和训练脚本在GluonCV中可以获得。


附教程内容


高质量延伸阅读

☞ OpenPV平台发布在线的ParallelEye视觉任务挑战赛

【学界】第1届“智能车辆中的平行视觉”研讨会成功举行

【学界】生成式对抗网络:从生成数据到创造智能

【学界】OpenPV:中科院研究人员建立开源的平行视觉研究平台

【学界】基于平行视觉的特定场景下行人检测

【学界】ParallelEye:面向交通视觉研究构建的大规模虚拟图像集

【CFP】Virtual Images for Visual Artificial Intelligence

【最详尽的GAN介绍】王飞跃等:生成式对抗网络 GAN 的研究进展与展望

【智能自动化学科前沿讲习班第1期】王飞跃教授:生成式对抗网络GAN的研究进展与展望

【智能自动化学科前沿讲习班第1期】王坤峰副研究员:GAN与平行视觉

【重磅】平行将成为一种常态:从SimGAN获得CVPR 2017最佳论文奖说起

【平行讲坛】平行图像:图像生成的一个新型理论框架

【学界】基于生成对抗网络的低秩图像生成方法

【学界】Ian Goodfellow等人提出对抗重编程,让神经网络执行其他任务

【学界】六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步

【资源】T2T:利用StackGAN和ProGAN从文本生成人脸

【学界】 CVPR 2018最佳论文作者亲笔解读:研究视觉任务关联性的Taskonomy

【业界】英特尔OpenVINO™工具包为创新智能视觉提供更多可能

【学界】ECCV 2018: 对抗深度学习: 鱼 (模型准确性) 与熊掌 (模型鲁棒性) 能否兼得 


登录查看更多
58

相关内容

图像分类是指给定一组各自被标记为单一类别的图像,然后对一组新的测试图像的类别进行预测,并测量预测的准确性结果。
卷积神经网络的概述论文:分析、应用和展望,21页pdf
专知会员服务
89+阅读 · 2020年4月7日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
零样本图像分类综述 : 十年进展
专知会员服务
122+阅读 · 2019年11月16日
【教程】TensorFlow2 最新迁移学习教程和实战
图像分类论文与代码大列表
专知
6+阅读 · 2019年2月16日
【干货】使用Pytorch实现卷积神经网络
专知
13+阅读 · 2018年5月12日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
4+阅读 · 2018年9月11日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
9+阅读 · 2018年2月4日
Arxiv
25+阅读 · 2017年12月6日
VIP会员
相关资讯
相关论文
Arxiv
15+阅读 · 2019年9月11日
Arxiv
4+阅读 · 2018年9月11日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
9+阅读 · 2018年2月4日
Arxiv
25+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员