Large Vision-Language Models (LVLMs) have demonstrated impressive performance on multimodal tasks through scaled architectures and extensive training. However, existing Mixture of Experts (MoE) approaches face challenges due to the asymmetry between visual and linguistic processing. Visual information is spatially complete, while language requires maintaining sequential context. As a result, MoE models struggle to balance modality-specific features and cross-modal interactions. Through systematic analysis, we observe that language experts in deeper layers progressively lose contextual grounding and rely more on parametric knowledge rather than utilizing the provided visual and linguistic information. To address this, we propose AsyMoE, a novel architecture that models this asymmetry using three specialized expert groups. We design intra-modality experts for modality-specific processing, hyperbolic inter-modality experts for hierarchical cross-modal interactions, and evidence-priority language experts to suppress parametric biases and maintain contextual grounding. Extensive experiments demonstrate that AsyMoE achieves 26.58% and 15.45% accuracy improvements over vanilla MoE and modality-specific MoE respectively, with 25.45% fewer activated parameters than dense models.


翻译:大型视觉语言模型(LVLMs)通过规模化架构和广泛训练,在多模态任务上展现出令人印象深刻的性能。然而,现有的混合专家(MoE)方法因视觉与语言处理之间的不对称性而面临挑战。视觉信息在空间上是完整的,而语言则需要保持序列上下文。因此,MoE模型难以平衡模态特定特征与跨模态交互。通过系统分析,我们观察到深层中的语言专家逐渐丧失上下文基础,更多地依赖于参数化知识,而非利用所提供的视觉与语言信息。为解决此问题,我们提出AsyMoE,一种利用三个专业化专家组对此不对称性进行建模的新型架构。我们设计了用于模态特定处理的内模态专家、用于分层跨模态交互的双曲跨模态专家,以及证据优先语言专家以抑制参数化偏差并保持上下文基础。大量实验表明,AsyMoE相较于基础MoE和模态特定MoE分别实现了26.58%和15.45%的准确率提升,且激活参数比密集模型少25.45%。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
41+阅读 · 2023年12月14日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员