The expansion of instruction-tuning data has enabled foundation language models to exhibit improved instruction adherence and superior performance across diverse downstream tasks. Semantically-rich 3D human motion is being progressively integrated with these foundation models to enhance multimodal understanding and cross-modal generation capabilities. However, the modality gap between human motion and text raises unresolved concerns about catastrophic forgetting during this integration. In addition, developing autoregressive-compatible pose representations that preserve generalizability across heterogeneous downstream tasks remains a critical technical barrier. To address these issues, we propose the Human Motion-Vision-Language Model (HMVLM), a unified framework based on the Mixture of Expert Low-Rank Adaption(MoE LoRA) strategy. The framework leverages the gating network to dynamically allocate LoRA expert weights based on the input prompt, enabling synchronized fine-tuning of multiple tasks. To mitigate catastrophic forgetting during instruction-tuning, we introduce a novel zero expert that preserves the pre-trained parameters for general linguistic tasks. For pose representation, we implement body-part-specific tokenization by partitioning the human body into different joint groups, enhancing the spatial resolution of the representation. Experiments show that our method effectively alleviates knowledge forgetting during instruction-tuning and achieves remarkable performance across diverse human motion downstream tasks.


翻译:指令微调数据的扩展使得基础语言模型展现出更强的指令遵循能力,并在多样化的下游任务中取得优越性能。语义丰富的三维人体运动正逐步与这些基础模型融合,以增强多模态理解与跨模态生成能力。然而,人体运动与文本之间的模态差异引发了关于融合过程中灾难性遗忘的未解难题。此外,开发能够保持异构下游任务泛化能力的自回归兼容姿态表示,仍然是一个关键的技术障碍。为解决这些问题,我们提出了人体运动-视觉-语言模型(HMVLM),这是一个基于专家混合低秩自适应(MoE LoRA)策略的统一框架。该框架利用门控网络根据输入提示动态分配LoRA专家权重,实现多任务的同步微调。为缓解指令微调期间的灾难性遗忘,我们引入了一种新颖的零专家机制,用于保留预训练参数以处理通用语言任务。在姿态表示方面,我们通过将人体划分为不同的关节组,实现了基于身体部位的特异性标记化,从而提升了表示的空间分辨率。实验表明,我们的方法有效缓解了指令微调过程中的知识遗忘,并在多样化的人体运动下游任务中取得了显著性能。

0
下载
关闭预览

相关内容

【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
专知会员服务
38+阅读 · 2021年10月14日
Python图像处理,366页pdf,Image Operators Image Processing in Python
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员