Motivated by the imperative for real-time responsiveness and data privacy preservation, large language models (LLMs) are increasingly deployed on resource-constrained edge devices to enable localized inference. To improve output quality, retrieval-augmented generation (RAG) is an efficient technique that seamlessly integrates local data into LLMs. However, existing edge computing paradigms primarily focus on single-node optimization, neglecting opportunities to holistically exploit distributed data and heterogeneous resources through cross-node collaboration. To bridge this gap, we propose CoEdge-RAG, a hierarchical scheduling framework for retrieval-augmented LLMs in collaborative edge computing. In general, privacy constraints preclude accurate a priori acquisition of heterogeneous data distributions across edge nodes, directly impeding RAG performance optimization. Thus, we first design an online query identification mechanism using proximal policy optimization (PPO), which autonomously infers query semantics and establishes cross-domain knowledge associations in an online manner. Second, we devise a dynamic inter-node scheduling strategy that balances workloads across heterogeneous edge nodes by synergizing historical performance analytics with real-time resource thresholds. Third, we develop an intra-node scheduler based on online convex optimization, adaptively allocating query processing ratios and memory resources to optimize the latency-quality trade-off under fluctuating assigned loads. Comprehensive evaluations across diverse QA benchmarks demonstrate that our proposed method significantly boosts the performance of collaborative retrieval-augmented LLMs, achieving performance gains of 4.23\% to 91.39\% over baseline methods across all tasks.


翻译:受实时响应性与数据隐私保护的迫切需求驱动,大语言模型(LLMs)正日益部署于资源受限的边缘设备上,以实现本地化推理。为提升输出质量,检索增强生成(RAG)作为一种高效技术,能够将本地数据无缝整合至LLMs中。然而,现有边缘计算范式主要聚焦于单节点优化,忽视了通过跨节点协作整体利用分布式数据与异构资源的机会。为弥合这一差距,我们提出了CoEdge-RAG,一个面向协作边缘计算中检索增强LLMs的层次化调度框架。通常,隐私约束阻碍了准确先验获取跨边缘节点的异构数据分布,直接影响了RAG性能优化。因此,我们首先设计了一种基于近端策略优化(PPO)的在线查询识别机制,该机制能自主推断查询语义并以在线方式建立跨领域知识关联。其次,我们提出了一种动态节点间调度策略,通过协同历史性能分析与实时资源阈值,在异构边缘节点间平衡工作负载。第三,我们开发了一种基于在线凸优化的节点内调度器,自适应分配查询处理比例与内存资源,以在波动的分配负载下优化延迟与质量的权衡。在多样化问答基准测试中的综合评估表明,我们提出的方法显著提升了协作检索增强LLMs的性能,在所有任务中相比基线方法取得了4.23%至91.39%的性能增益。

0
下载
关闭预览

相关内容

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员