机器学习论文推荐|Evolving Normalization-Activation Layers

2020 年 6 月 2 日 学术头条

本文第一作者及通讯作者为本科毕业于清华大学,博士毕业于卡耐基梅隆大学,现工作于 Google Brain 的刘寒骁。值得一提的是,刘寒骁也是 DARTS: Differentiable Architecture Search 的第一作者,这篇论文对于神经网络结构搜索(NAS)的搜索成本研究有了突破性的进展,也让 NAS 领域中的 gradient-based 方法变得更加流行。


今天为您推荐的论文为 Google Brain 和 DeepMind 团队于 4 月 28 号挂在 arXiv 上的论文 Evolving Normalization-Activation Layers ,作者为 Hanxiao Liu, Andrew Brock,Karen Simonyan,Quoc V. Le .


Evolving Normalization-Activation Layers 的中心思想也是借助于搜索的方法来探寻最优的 Normalization-Activation Layers。Normalization Layers 和 Activation Layers 是深度神经网络的关键组件。近些年来有很多重要的研究工作致力于对两者的分别独立的设计,比如单一的设计 Normalization Layers (Batch Norm,Group Norm, Instance Norm,Layer Norm 等等)或者单一的设计Activation Layers (ReLU,Sigmoid, Tanh,Swish 等等),都取得了相应的进展。然而,不同于传统地将这两者分别设计,此研究是第一个将两者合为一个整体的计算图来自动设计(automatically co-design)的工作。


如下图所示,此研究从一些最底层的基元(primitives)结构出发,通过这些基于的不同组合构成了很多不同的 Normalization-Activation Layers。再通过演变的搜索方法来不断的淘汰表现不良的组合,并保留表现良好的组合。最后,演化算法搜索出了全新的 normalization-activation layers,并将之命名为 EvoNorms。



EvoNorms 有两种系列:B 系列(需要 Batch 的统计信息)和 S 系列(需要 Sample 的信息),如图所示给出了 EvoNorm-B0 和 EvoNorm-S0 的表达公式。




EvoNorm-B0 的分母的实际意义是选取 Batch Norm(BN)和 Instance Norm 表现更强的一个,下图是 EvoNorm-B0 对于 MobileNetV2 在 ImageNet 上的表现结果,相对于 BN-ReLU,它可以一致的提高 1~2 个百分点的精度。



不同于 B0,EvoNorm-S0 是不需要 batch statistics 的。它的分子实际上是 Swish,分母代表的是 Group Norm(GN)信息。如下图所示:



EvoNorm-S0 相对于 BN-ReLU 和 GN-ReLU 精度更高,且精度不受 batch size 的影响。


总的来说,实验结果显示 EvoNorms 不仅能够在多种图像分类模型(包括 ResNets, MobileNets and EfficientNets 等)中取得较好的精度,而且可以很好地转移到实例分割(包括 Mask R-CNN, SpineNet 等)和图像合成(例如 BigGAN)。在这些问题的解决上,EvoNorms 的结构明显优 BatchNorm 和 GroupNorm。


认真研读本篇论文的读者就会发现,虽然 EvoNorms 取得了更好的精度,但是这些精度的提高取决于对一些 hyperparameters 的优化。另外,笔者认为 EvoNorms 在 inference 上的执行时间可能会增加。

欢迎大家提出关于本篇论文更多的思考和见解!

点击阅读原文,查看更多精彩!

登录查看更多
0

相关内容

【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
46+阅读 · 2020年7月4日
最新《自动微分手册》77页pdf
专知会员服务
97+阅读 · 2020年6月6日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
152+阅读 · 2020年5月26日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
72+阅读 · 2020年4月24日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
BAT机器学习面试1000题(721~725题)
七月在线实验室
11+阅读 · 2018年12月18日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
深度学习面试100题(第71-75题)
七月在线实验室
5+阅读 · 2018年8月2日
深度学习面试100题(第41-45题)
七月在线实验室
15+阅读 · 2018年7月18日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
BAT题库 | 机器学习面试1000题系列(第191~195题)
七月在线实验室
6+阅读 · 2017年11月15日
BAT机器学习面试1000题系列(第46~50题)
七月在线实验室
7+阅读 · 2017年10月7日
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
Image Segmentation Using Deep Learning: A Survey
Arxiv
43+阅读 · 2020年1月15日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
26+阅读 · 2018年9月21日
Arxiv
6+阅读 · 2018年1月11日
VIP会员
相关资讯
BAT机器学习面试1000题(721~725题)
七月在线实验室
11+阅读 · 2018年12月18日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
深度学习面试100题(第71-75题)
七月在线实验室
5+阅读 · 2018年8月2日
深度学习面试100题(第41-45题)
七月在线实验室
15+阅读 · 2018年7月18日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
BAT题库 | 机器学习面试1000题系列(第191~195题)
七月在线实验室
6+阅读 · 2017年11月15日
BAT机器学习面试1000题系列(第46~50题)
七月在线实验室
7+阅读 · 2017年10月7日
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
Top
微信扫码咨询专知VIP会员