Mixture-of-Experts (MoE) architectures achieve parameter efficiency through conditional computation, yet contemporary designs suffer from two fundamental limitations: structural parameter isolation that causes catastrophic forgetting, and instruction-overfitting that degrades performance in instruction-free scenarios. We propose CDSP-MoE (Conflict-Driven Subspace Pruning MoE), a framework that addresses these issues through a paradigm shift from isolated expert containers to dynamic expert instantiation within a shared physical subspace. Grounded in the Universal Weight Subspace Hypothesis, CDSP-MoE maintains a super-complete parameter backbone where logical experts are carved out via learnable topology masks. Unlike prior work that uses gradient conflict for token reassignment or optimization surgery, we leverage it as a structural supervisory signal: a Lagged Gradient Game penalizes interfering connections in the shared manifold, enabling the topology to spontaneously prune conflicting pathways and evolve interpretable modular structures. Experimental results demonstrate that CDSP-MoE achieves robust content-driven routing without human-defined task labels, maintaining semantic specialization even under strict blind inference protocols where explicit instructions are absent. Code is available at: https://github.com/konodiodaaaaa1/Conflict-Driven-Subspace-Pruning-Mixture-of-Experts


翻译:专家混合架构通过条件计算实现参数效率,但现有设计存在两个根本性局限:结构参数隔离导致的灾难性遗忘,以及指令过拟合在无指令场景下的性能退化。本文提出CDSP-MoE(冲突驱动子空间剪枝专家混合模型),该框架通过从隔离的专家容器范式转向共享物理子空间内的动态专家实例化,系统性地解决了上述问题。基于通用权重子空间假说,CDSP-MoE维护一个超完备参数主干网络,其中逻辑专家通过可学习的拓扑掩码进行刻画。与先前利用梯度冲突进行令牌重分配或优化手术的研究不同,我们将其作为结构性监督信号:滞后梯度博弈机制对共享流形中的干扰连接施加惩罚,使拓扑结构能够自发剪枝冲突路径并演化出可解释的模块化结构。实验结果表明,CDSP-MoE在无需人工定义任务标签的情况下实现了鲁棒的内容驱动路由机制,即使在缺乏显式指令的严格盲推理协议下仍能保持语义特化能力。代码已开源:https://github.com/konodiodaaaaa1/Conflict-Driven-Subspace-Pruning-Mixture-of-Experts

0
下载
关闭预览

相关内容

【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索
专知会员服务
18+阅读 · 2024年6月25日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
26+阅读 · 2020年10月15日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员