Compared with cheap addition operation, multiplication operation is of much higher computation complexity. The widely-used convolutions in deep neural networks are exactly cross-correlation to measure the similarity between input feature and convolution filters, which involves massive multiplications between float values. In this paper, we present adder networks (AdderNets) to trade these massive multiplications in deep neural networks, especially convolutional neural networks (CNNs), for much cheaper additions to reduce computation costs. In AdderNets, we take the $\ell_1$-norm distance between filters and input feature as the output response. The influence of this new similarity measure on the optimization of neural network have been thoroughly analyzed. To achieve a better performance, we develop a special training approach for AdderNets by investigating the $\ell_p$-norm. We then propose an adaptive learning rate strategy to enhance the training procedure of AdderNets according to the magnitude of each neuron's gradient. As a result, the proposed AdderNets can achieve 75.7% Top-1 accuracy 92.3% Top-5 accuracy using ResNet-50 on the ImageNet dataset without any multiplication in convolutional layer. Moreover, we develop a theoretical foundation for AdderNets, by showing that both the single hidden layer AdderNet and the width-bounded deep AdderNet with ReLU activation functions are universal function approximators. These results match those of the traditional neural networks using the more complex multiplication units. An approximation bound for AdderNets with a single hidden layer is also presented.


翻译:与廉价的添加操作相比, 倍增操作的计算复杂性要高得多。 在 AdderNets 中, 深神经网络中广泛使用的变异是精确的交叉关系, 以测量输入特性和变异过滤器之间的相似性, 其中包括浮点值之间的大规模乘法。 在本文中, 我们推出添加网络( AdderNets), 将这些巨大的倍增在深神经网络中进行交易, 特别是变异神经网络( CNNs ), 以便以更便宜的方式增加计算成本。 在 AderNets 中, 我们使用过滤器和输入器的相交距离来计算输出响应。 已经彻底分析了这一新相似的输入特性特性和变异过滤器过滤器过滤器过滤器过滤器的相似性。 为了取得更好的业绩, 我们开发的 aderNets, 也可以在使用 $\ell_ pal_ p$- n- entral 中, 并使用 Excial- develop Exliversal 服务器来显示 Excial- ExliversalNet 。

0
下载
关闭预览

相关内容

神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
30+阅读 · 2020年4月15日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
37+阅读 · 2020年2月21日
【教程】TensorFlow2 最新迁移学习教程和实战
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Capsule Networks教程
全球人工智能
10+阅读 · 2017年11月24日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
CNN之卷积层
机器学习算法与Python学习
8+阅读 · 2017年7月2日
Arxiv
0+阅读 · 2021年8月3日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
7+阅读 · 2021年5月13日
Arxiv
21+阅读 · 2021年2月13日
Arxiv
5+阅读 · 2019年9月25日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
VIP会员
相关VIP内容
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
30+阅读 · 2020年4月15日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
37+阅读 · 2020年2月21日
相关资讯
【教程】TensorFlow2 最新迁移学习教程和实战
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Capsule Networks教程
全球人工智能
10+阅读 · 2017年11月24日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
CNN之卷积层
机器学习算法与Python学习
8+阅读 · 2017年7月2日
相关论文
Arxiv
0+阅读 · 2021年8月3日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
7+阅读 · 2021年5月13日
Arxiv
21+阅读 · 2021年2月13日
Arxiv
5+阅读 · 2019年9月25日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Top
微信扫码咨询专知VIP会员