Disaggregated LLM serving improves resource efficiency by separating the compute-intensive prefill phase from the latency-critical decode phase. However, this architecture introduces a fundamental bottleneck: key/value (KV) tensors generated during prefill must be transferred to decode workers, and existing systems rely on RDMA-based network paths for this exchange. As model sizes and context lengths increase, KV transfer dominates both time-to-first-token (TTFT) and peak throughput, and remains highly sensitive to network contention even when prefix reuse is high. This paper presents TraCT, a rack-scale LLM serving system that uses CXL shared memory as both a KV-transfer substrate and a rack-wide prefix-aware KV cache. TraCT enables GPUs to write and read KV blocks directly through CXL load/store and DMA operations, eliminating the NIC hop that constrains existing disaggregated pipelines. However, to realize this design, multiple new challenges such as synchronization, consistency, and data management on non-coherent CXL memory need to be addressed. TraCT proposes various software solutions such as the two-tier inter-node synchronization mechanism to address these challenges. We implement TraCT on the Dynamo LLM inference framework and show that, across static and synthetic workloads, TraCT reduces average TTFT by up to 9.8x, lowers P99 latency by up to 6.2x, and improves peak throughput by up to 1.6x compared to RDMA and DRAM-based caching baselines.


翻译:解耦式大语言模型服务通过将计算密集的预填充阶段与延迟敏感的解码阶段分离,提升了资源效率。然而,该架构引入了一个根本性瓶颈:预填充阶段生成的键/值(KV)张量必须传输至解码工作节点,而现有系统依赖基于RDMA的网络路径进行此类数据交换。随着模型规模与上下文长度的增长,KV传输在首词元生成时间(TTFT)与峰值吞吐量中均占据主导地位,且即使前缀复用率较高时仍对网络拥塞极为敏感。本文提出TraCT,一种采用CXL共享内存同时作为KV传输底层与机架级前缀感知KV缓存的机架级大语言模型服务系统。TraCT使GPU能够直接通过CXL加载/存储及DMA操作读写KV数据块,消除了制约现有解耦式处理流程的网卡跳转环节。然而,为实现该设计,需解决非一致性CXL内存上的同步、一致性及数据管理等多重新挑战。TraCT提出了包括双层节点间同步机制在内的多种软件解决方案以应对这些挑战。我们在Dynamo大语言模型推理框架上实现了TraCT,实验表明:在静态与合成工作负载下,相较于基于RDMA与DRAM缓存的基线系统,TraCT将平均TTFT最高降低9.8倍,P99延迟最高降低6.2倍,峰值吞吐量最高提升1.6倍。

0
下载
关闭预览

相关内容

【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
MIMIC-IT:多模态上下文指令调优
专知会员服务
39+阅读 · 2023年6月11日
【NeurIPS2019】图变换网络:Graph Transformer Network
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员