Transformer-based language models such as BERT provide significant accuracy improvement for a multitude of natural language processing (NLP) tasks. However, their hefty computational and memory demands make them challenging to deploy to resource-constrained edge platforms with strict latency requirements. We present EdgeBERT, an in-depth algorithm-hardware co-design for latency-aware energy optimization for multi-task NLP. EdgeBERT employs entropy-based early exit predication in order to perform dynamic voltage-frequency scaling (DVFS), at a sentence granularity, for minimal energy consumption while adhering to a prescribed target latency. Computation and memory footprint overheads are further alleviated by employing a calibrated combination of adaptive attention span, selective network pruning, and floating-point quantization. Furthermore, in order to maximize the synergistic benefits of these algorithms in always-on and intermediate edge computing settings, we specialize a 12nm scalable hardware accelerator system, integrating a fast-switching low-dropout voltage regulator (LDO), an all-digital phase-locked loop (ADPLL), as well as, high-density embedded non-volatile memories (eNVMs) wherein the sparse floating-point bit encodings of the shared multi-task parameters are carefully stored. Altogether, latency-aware multi-task NLP inference acceleration on the EdgeBERT hardware system generates up to 7x, 2.5x, and 53x lower energy compared to the conventional inference without early stopping, the latency-unbounded early exit approach, and CUDA adaptations on an Nvidia Jetson Tegra X2 mobile GPU, respectively.


翻译:NLPER 等基于变换语言模型为多种自然语言处理任务提供了显著的精度改进。 但是,它们的粗重计算和记忆要求使得它们难以在严格潜延要求下部署到资源限制的边缘平台。 我们展示了EdgeBERT, 这是用于多塔斯克 NLP的深重智能能量优化的高级算法硬件共同设计。 EdgeBERT 使用基于英基的早期退出预言, 以便在一个句式颗粒度上进行动态电压频率缩放(DVFS), 用于最小能源消耗,同时遵守规定的常规升压。 我们使用调整组合的适应性硬度范围、选择性网络调整和浮动点四分位化等组合来进一步降低对精度的精度。 此外,为了在常值和中端计算环境中最大限度地发挥这些算法的协同效益,我们专门设计了一种12纳米可伸缩的软硬件, 将NVPFAL-S-OD-OD-S-SD-SD-Silental-Silental-deal-ral-lieval-lieval-deal-lievildal-lieval-de-de-de-de-lievildal-deal-deal-deal-deal-deal-de-de-deal-deal-deal-de-de-de-ligal-ligal- dis- disal-ligal- dislationdaldal- dis- dis- dislationdaldaldaldaldaldaldaldaldaldaldal-sildal-sildal-s-sildal-s-s-s-s-sild-s-sild-sild-sildal-s-s-sildal-sil-s-sild-s-d-s-dal-dal-dal-dal-d-d-d-dal-s-d-d-d-d-d-d-d-dal-d-d-d-d-d-d-d-d-d-d-d-d-d-d-d-

0
下载
关闭预览

相关内容

预训练语言模型fine-tuning近期进展概述
专知会员服务
36+阅读 · 2021年4月9日
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
专知会员服务
52+阅读 · 2020年11月3日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
深度学习NLP相关资源大列表
机器学习研究会
3+阅读 · 2017年9月17日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Arxiv
0+阅读 · 2021年6月9日
Arxiv
1+阅读 · 2021年6月8日
Arxiv
5+阅读 · 2017年11月30日
VIP会员
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
深度学习NLP相关资源大列表
机器学习研究会
3+阅读 · 2017年9月17日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Top
微信扫码咨询专知VIP会员