Diffusion Large Language Models (dLLMs) have demonstrated significant potential for high-speed inference. However, current confidence-driven decoding strategies are constrained by limited parallelism, typically achieving only 1--3 tokens per forward pass (TPF). In this work, we identify that the degree of parallelism during dLLM inference is highly sensitive to the Token Filling Order (TFO). Then, we introduce Lookahead PArallel Decoding LoPA, a training-free, plug-and-play algorithm, to identify a superior TFO and hence accelerate inference. LoPA concurrently explores distinct candidate TFOs via parallel branches, and selects the one with the highest potential for future parallelism based on branch confidence. We apply LoPA to the state-of-the-art D2F model and observe a substantial enhancement in decoding efficiency. Notably, LoPA increases the TPF of D2F-Dream to 10.1 on the GSM8K while maintaining performance superior to the Dream baseline. Furthermore, to facilitate this unprecedented degree of parallelism, we develop a specialized multi-device inference system featuring Branch Parallelism (BP), which achieves a single-sample throughput of 1073.9 tokens per second under multi-GPU deployment. The code is available at https://github.com/zhijie-group/LoPA.


翻译:扩散大语言模型(dLLM)已展现出高速推理的巨大潜力。然而,当前基于置信度的解码策略受限于并行度不足,通常每次前向传播仅能生成1–3个标记。本研究发现,dLLM推理过程中的并行度对标记填充顺序(TFO)高度敏感。为此,我们提出前瞻并行解码算法LoPA,这是一种无需训练、即插即用的算法,旨在寻找更优的TFO以加速推理。LoPA通过并行分支同时探索不同的候选TFO,并根据分支置信度选择最具未来并行潜力的顺序。我们将LoPA应用于最先进的D2F模型,观察到解码效率的显著提升。值得注意的是,在GSM8K数据集上,LoPA将D2F-Dream模型的TPF提升至10.1,同时保持优于Dream基线的性能。此外,为支持这种前所未有的并行度,我们开发了具备分支并行性(BP)的专用多设备推理系统,在多GPU部署下实现了单样本每秒1073.9个标记的吞吐量。代码已开源:https://github.com/zhijie-group/LoPA。

0
下载
关闭预览

相关内容

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员