Automatic search of Quantized Neural Networks has attracted a lot of attention. However, the existing quantization aware Neural Architecture Search (NAS) approaches inherit a two-stage search-retrain schema, which is not only time-consuming but also adversely affected by the unreliable ranking of architectures during the search. To avoid the undesirable effect of the search-retrain schema, we present Once Quantized for All (OQA), a novel framework that searches for quantized efficient models and deploys their quantized weights at the same time without additional post-process. While supporting a huge architecture search space, our OQA can produce a series of ultra-low bit-width(e.g. 4/3/2 bit) quantized efficient models. A progressive bit inheritance procedure is introduced to support ultra-low bit-width. Our discovered model family, OQANets, achieves a new state-of-the-art (SOTA) on quantized efficient models compared with various quantization methods and bit-widths. In particular, OQA2bit-L achieves 64.0% ImageNet Top-1 accuracy, outperforming its 2-bit counterpart EfficientNet-B0@QKD by a large margin of 14% using 30% less computation budget. Code is available at https://github.com/LaVieEnRoseSMZ/OQA.


翻译:自动搜索 量化神经网络已经引起人们的极大关注。 然而, 现有的量化认知神经结构搜索(NAS) 方法继承了两阶段搜索- RETRain 系统, 这不仅耗时, 而且还受到搜索期间建筑排名不可靠的不利影响。 为了避免搜索- RETRain 系统模式的不良效果, 我们提出“ 为所有人量化”( OQA) 的新框架, 即搜索量化高效模型并同时部署其量化的权重, 而不增加后处理 。 我们的 OQA 在支持一个巨大的建筑搜索空间的同时, 还可以产生一系列超低位位位( 如 4/3/2 位) 的搜索- RETRain 系统, 并且受到搜索过程中不可靠的结构排序的不利影响。 为了避免搜索- 搜索- retratrestrain 系统( OQQQQQQQQQQANets), 我们发现的模型家族“ OQQANets, 实现新的量化高效的高效模型, 与各种四分解方法和BWy- Rwith 相比。 尤其是, QQQQQQO- Q- QO- Q- Q- Q- Q- Q- Q- Q- Q- Q- Q-Q- Q-Q-Q-Q-Q____Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_BTalalalalalalalal_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_Q_

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
318+阅读 · 2020年11月26日
专知会员服务
61+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
8+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2020年11月24日
Arxiv
0+阅读 · 2020年11月19日
TResNet: High Performance GPU-Dedicated Architecture
Arxiv
8+阅读 · 2020年3月30日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
VIP会员
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
8+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员