This paper presents LLaDA2.0 -- a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models -- establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.


翻译:本文提出了LLaDA2.0——一组通过从自回归模型进行系统性转换而扩展至总计1000亿参数的离散扩散大语言模型,为前沿规模部署建立了一种新范式。LLaDA2.0并非进行成本高昂的从头训练,而是秉持知识继承、渐进适应和效率感知的设计原则,通过一种新颖的、基于3阶段块级WSD的训练方案,将预训练的自回归模型无缝转换为离散扩散大语言模型:该方案包括块扩散中渐进增加块大小(预热阶段)、大规模全序列扩散(稳定阶段)以及恢复至紧凑尺寸块扩散(衰减阶段)。结合使用SFT和DPO进行训练后对齐,我们获得了LLaDA2.0-mini(160亿参数)和LLaDA2.0-flash(1000亿参数),这是两个为实际部署优化的、经过指令调优的专家混合模型变体。通过保留并行解码的优势,这些模型在前沿规模上实现了卓越的性能和效率。两个模型均已开源。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
GitHub超9千星:一个API调用27个NLP预训练模型
新智元
17+阅读 · 2019年7月22日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员