Batch Normalization (BN) is a popular technique for training Deep Neural Networks (DNNs). BN uses scaling and shifting to normalize activations of mini-batches to accelerate convergence and improve generalization. The recently proposed Iterative Normalization (IterNorm) method improves these properties by whitening the activations iteratively using Newton's method. However, since Newton's method initializes the whitening matrix independently at each training step, no information is shared between consecutive steps. In this work, instead of exact computation of whitening matrix at each time step, we estimate it gradually during training in an online fashion, using our proposed Stochastic Whitening Batch Normalization (SWBN) algorithm. We show that while SWBN improves the convergence rate and generalization of DNNs, its computational overhead is less than that of IterNorm. Due to the high efficiency of the proposed method, it can be easily employed in most DNN architectures with a large number of layers. We provide comprehensive experiments and comparisons between BN, IterNorm, and SWBN layers to demonstrate the effectiveness of the proposed technique in conventional (many-shot) image classification and few-shot classification tasks.


翻译:普通化(BN)是培训深神经网络(DNN)的流行技术。BN使用缩放和转换,将微型插管的启动正常化,以加速趋同,改进一般化。最近提议的超常化(IterNorm)方法通过使用牛顿方法使激活的白化率(IterNorm)法更新这些属性。然而,由于牛顿的方法在每一培训步骤中独立初始化白化矩阵,因此在每一培训步骤中,连续步骤之间不能共享任何信息。在这项工作中,除了准确计算每个步骤的白化矩阵之外,我们使用我们提议的Stochastartic白批正常化(SWBNBN)算法(SWBN)算法(IterNorm)法(IterNorm),SWBNBN(SWB、ILERNORM和SWBNBS)级培训中,我们利用我们提议的SWBN、SAL-SAL-S、SL II 和SAL II 和S-SG II AL 和 AL AL 等 等 等 和SAL 和S 等 等 等 等 等 等 等 等 等 等 等 和 等 等 等 等 等 等 等 等 等 等 、 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等 等

0
下载
关闭预览

相关内容

专知会员服务
15+阅读 · 2020年7月27日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
11+阅读 · 2019年5月6日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
PyTorch中在反向传播前为什么要手动将梯度清零?
极市平台
39+阅读 · 2019年1月23日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Does Data Augmentation Benefit from Split BatchNorms
Arxiv
3+阅读 · 2020年10月15日
Arxiv
8+阅读 · 2020年6月15日
Arxiv
5+阅读 · 2020年3月16日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
Top
微信扫码咨询专知VIP会员