Human motion understanding has advanced rapidly through vision-based progress in recognition, tracking, and captioning. However, most existing methods overlook physical cues such as joint actuation forces that are fundamental in biomechanics. This gap motivates our study: if and when do physically inferred forces enhance motion understanding? By incorporating forces into established motion understanding pipelines, we systematically evaluate their impact across baseline models on 3 major tasks: gait recognition, action recognition, and fine-grained video captioning. Across 8 benchmarks, incorporating forces yields consistent performance gains; for example, on CASIA-B, Rank-1 gait recognition accuracy improved from 89.52% to 90.39% (+0.87), with larger gain observed under challenging conditions: +2.7% when wearing a coat and +3.0% at the side view. On Gait3D, performance also increases from 46.0% to 47.3% (+1.3). In action recognition, CTR-GCN achieved +2.00% on Penn Action, while high-exertion classes like punching/slapping improved by +6.96%. Even in video captioning, Qwen2.5-VL's ROUGE-L score rose from 0.310 to 0.339 (+0.029), indicating that physics-inferred forces enhance temporal grounding and semantic richness. These results demonstrate that force cues can substantially complement visual and kinematic features under dynamic, occluded, or appearance-varying conditions.


翻译:人体运动理解通过基于视觉的识别、跟踪与描述任务取得了快速发展。然而,现有方法大多忽视了如关节驱动力等生物力学中的基本物理线索。这一空白促使我们研究:物理推断的力是否以及何时能增强运动理解?通过将力信息整合到成熟的运动理解流程中,我们在步态识别、动作识别和细粒度视频描述三大任务上,系统评估了力信息对基线模型的影响。在8个基准测试中,引入力信息均带来了稳定的性能提升;例如在CASIA-B数据集上,Rank-1步态识别准确率从89.52%提升至90.39%(+0.87),且在挑战性条件下提升更为显著:穿外套时提升+2.7%,侧视角下提升+3.0%。在Gait3D数据集上,性能也从46.0%提升至47.3%(+1.3)。在动作识别任务中,CTR-GCN模型在Penn Action数据集上提升+2.00%,而高强度动作类别(如出拳/拍击)的识别率提升达+6.96%。即使在视频描述任务中,Qwen2.5-VL模型的ROUGE-L分数也从0.310提升至0.339(+0.029),表明物理推断的力能增强时序定位能力和语义丰富性。这些结果证明,在动态、遮挡或外观变化的条件下,力线索能显著补充视觉与运动学特征。

0
下载
关闭预览

相关内容

注意力机制综述(中文版)
专知
23+阅读 · 2021年1月26日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关资讯
注意力机制综述(中文版)
专知
23+阅读 · 2021年1月26日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员