Compared with cheap addition operation, multiplication operation is of much higher computation complexity. The widely-used convolutions in deep neural networks are exactly cross-correlation to measure the similarity between input feature and convolution filters, which involves massive multiplications between float values. In this paper, we present adder networks (AdderNets) to trade these massive multiplications in deep neural networks, especially convolutional neural networks (CNNs), for much cheaper additions to reduce computation costs. In AdderNets, we take the $\ell_1$-norm distance between filters and input feature as the output response. The influence of this new similarity measure on the optimization of neural network have been thoroughly analyzed. To achieve a better performance, we develop a special back-propagation approach for AdderNets by investigating the full-precision gradient. We then propose an adaptive learning rate strategy to enhance the training procedure of AdderNets according to the magnitude of each neuron's gradient. As a result, the proposed AdderNets can achieve 74.9% Top-1 accuracy 91.7% Top-5 accuracy using ResNet-50 on the ImageNet dataset without any multiplication in convolution layer.


翻译:与廉价的附加操作相比, 倍增操作的计算复杂程度要高得多。 深神经网络中广泛使用的变异是精确的交叉关系, 以测量输入特性和变动过滤器之间的相似性, 其中包括浮点值之间的巨大乘法。 在本文中, 我们展示加热网络( AdderNets), 将这些巨大的倍增用于深神经网络, 特别是进化神经网络( CNNs ), 以更廉价的增量来降低计算成本。 在 AdderNets 中, 我们将过滤器和输入特性之间的$@ $_ 1 $- 诺姆距离作为输出响应。 已经对这一新相似度测量神经网络优化的影响进行了彻底分析。 为了取得更好的性能, 我们为AdderNets开发了一种特殊的反向调整方法, 通过调查全精度梯度梯度, 特别是进化神经网络( CNNs), 我们然后提出一个适应性学习率战略, 以根据每个神经梯度的大小来增强AdderNet的培训程序。 作为结果, 拟议的AdderNet 可以在不实现74.9% 顶- 1- 1%- 顶- 5- 顶级 顶部- 5 的图像- 精确度- 5 Restregiplational/ vicilentalational/ 任何图像- SS- 10/ 任何 。

10
下载
关闭预览

相关内容

可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
126+阅读 · 2020年5月14日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
Stabilizing Transformers for Reinforcement Learning
专知会员服务
54+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
143+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Arxiv
14+阅读 · 2019年9月11日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
25+阅读 · 2018年1月24日
Arxiv
25+阅读 · 2017年12月6日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Arxiv
14+阅读 · 2019年9月11日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
25+阅读 · 2018年1月24日
Arxiv
25+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员