Mixture-of-Experts (MoE) has emerged as a promising paradigm for foundation models due to its efficient and powerful scalability. In this work, we present Sigma-MoE-Tiny, an MoE language model that achieves the highest sparsity compared to existing open-source models. Sigma-MoE-Tiny employs fine-grained expert segmentation with up to 96 experts per layer, while activating only one expert for each token, resulting in 20B total parameters with just 0.5B activated. The major challenge introduced by such extreme sparsity lies in expert load balancing. We find that the widely-used load balancing loss tends to become ineffective in the lower layers under this setting. To address this issue, we propose a progressive sparsification schedule aiming to balance expert utilization and training stability. Sigma-MoE-Tiny is pre-trained on a diverse and high-quality corpus, followed by post-training to further unlock its capabilities. The entire training process remains remarkably stable, with no occurrence of irrecoverable loss spikes. Comprehensive evaluations reveal that, despite activating only 0.5B parameters, Sigma-MoE-Tiny achieves top-tier performance among counterparts of comparable or significantly larger scale. In addition, we provide an in-depth discussion of load balancing in highly sparse MoE models, offering insights for advancing sparsity in future MoE architectures. Project page: https://qghuxmu.github.io/Sigma-MoE-Tiny Code: https://github.com/microsoft/ltp-megatron-lm


翻译:混合专家(Mixture-of-Experts, MoE)模型因其高效且强大的可扩展性,已成为基础模型领域一种极具前景的范式。在本工作中,我们提出了 Sigma-MoE-Tiny,这是一种 MoE 语言模型,与现有的开源模型相比,其达到了最高的稀疏度。Sigma-MoE-Tiny 采用了细粒度的专家划分,每层最多包含 96 个专家,同时每个令牌仅激活一个专家,从而实现了总计 200 亿参数中仅激活 5 亿参数。这种极端稀疏性带来的主要挑战在于专家负载均衡。我们发现,在此设置下,广泛使用的负载均衡损失在模型较低层趋于失效。为解决此问题,我们提出了一种渐进式稀疏化调度策略,旨在平衡专家利用率和训练稳定性。Sigma-MoE-Tiny 在一个多样且高质量的语料库上进行了预训练,随后进行了后训练以进一步释放其能力。整个训练过程保持高度稳定,未出现不可恢复的损失尖峰。全面的评估表明,尽管仅激活 5 亿参数,Sigma-MoE-Tiny 在同等规模或显著更大规模的同类模型中取得了顶尖的性能。此外,我们深入探讨了高稀疏度 MoE 模型中的负载均衡问题,为未来 MoE 架构中推进稀疏化提供了见解。项目页面:https://qghuxmu.github.io/Sigma-MoE-Tiny 代码:https://github.com/microsoft/ltp-megatron-lm

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
RNN | RNN实践指南(2)
KingsGarden
19+阅读 · 2017年5月4日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月24日
Arxiv
0+阅读 · 12月23日
Arxiv
0+阅读 · 12月19日
Arxiv
0+阅读 · 12月19日
Arxiv
0+阅读 · 12月19日
VIP会员
相关VIP内容
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
RNN | RNN实践指南(2)
KingsGarden
19+阅读 · 2017年5月4日
相关论文
Arxiv
0+阅读 · 12月24日
Arxiv
0+阅读 · 12月23日
Arxiv
0+阅读 · 12月19日
Arxiv
0+阅读 · 12月19日
Arxiv
0+阅读 · 12月19日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员