Large language models (LLMs) have emerged as a powerful foundation for intelligent reasoning and decision-making, demonstrating substantial impact across a wide range of domains and applications. However, their massive parameter scales and substantial resource demands pose critical challenges for efficient inference on edge devices. These devices are inherently constrained by limited computational power and memory capacity, while bandwidth bottlenecks at the network edge further restrict distributed deployment and real-time responsiveness. Although existing research has explored lightweight optimization techniques to mitigate memory limitations, such approaches often incur significant degradation in model accuracy and performance. To address these challenges, we propose LIME, a collaborative system that enables lossless inference for large models across multiple memory-constrained edge devices under limited network bandwidth. LIME employs an interleaved pipeline parallelism in conjunction with model offloading to dynamically balance computation and communication. Furthermore, a fine-grained offline allocation scheduler and online memory adaptation strategy are introduced to enhance the device's computing and storage resources while minimizing inference latency. Extensive experiments demonstrate that LIME, deployed on four heterogeneous Nvidia Jetson edge devices for LLaMA3.3-70B-Instruct model inference, achieves 1.7$\times$ and 3.7$\times$ speedups over state-of-the-art baselines under sporadic and bursty request patterns respectively, without compromising model accuracy.


翻译:大语言模型已成为智能推理与决策的强大基础,在众多领域和应用中展现出显著影响力。然而,其庞大的参数量与高资源需求对边缘设备上的高效推理构成了严峻挑战。这些设备本身受限于有限的计算能力与内存容量,而网络边缘的带宽瓶颈进一步制约了分布式部署与实时响应能力。尽管现有研究探索了轻量化优化技术以缓解内存限制,但此类方法往往导致模型精度与性能显著下降。为应对这些挑战,我们提出了LIME,一个在有限网络带宽下,支持跨多个内存受限边缘设备进行大模型无损推理的协同系统。LIME采用交错流水线并行与模型卸载相结合的方式,动态平衡计算与通信。此外,系统引入了细粒度离线分配调度器与在线内存自适应策略,以优化设备计算与存储资源,同时最小化推理延迟。大量实验表明,在四个异构Nvidia Jetson边缘设备上部署LIME进行LLaMA3.3-70B-Instruct模型推理时,相较于最先进的基线方法,在偶发性与突发性请求模式下分别实现了1.7$\times$与3.7$\times$的加速,且未损害模型精度。

0
下载
关闭预览

相关内容

LLMCad:快速可扩展的设备上大型语言模型推理
专知会员服务
35+阅读 · 2023年9月11日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员