Parametric 3D human models such as SMPL have driven significant advances in human pose and shape estimation, yet their simplified kinematics limit biomechanical realism. The recently proposed SKEL model addresses this limitation by re-rigging SMPL with an anatomically accurate skeleton. However, estimating SKEL parameters directly remains challenging due to limited training data, perspective ambiguities, and the inherent complexity of human articulation. We introduce SKEL-CF, a coarse-to-fine framework for SKEL parameter estimation. SKEL-CF employs a transformer-based encoder-decoder architecture, where the encoder predicts coarse camera and SKEL parameters, and the decoder progressively refines them in successive layers. To ensure anatomically consistent supervision, we convert the existing SMPL-based dataset 4DHuman into a SKEL-aligned version, 4DHuman-SKEL, providing high-quality training data for SKEL estimation. In addition, to mitigate depth and scale ambiguities, we explicitly incorporate camera modeling into the SKEL-CF pipeline and demonstrate its importance across diverse viewpoints. Extensive experiments validate the effectiveness of the proposed design. On the challenging MOYO dataset, SKEL-CF achieves 85.0 MPJPE / 51.4 PA-MPJPE, significantly outperforming the previous SKEL-based state-of-the-art HSMR (104.5 / 79.6). These results establish SKEL-CF as a scalable and anatomically faithful framework for human motion analysis, bridging the gap between computer vision and biomechanics. Our implementation is available on the project page: https://pokerman8.github.io/SKEL-CF/.


翻译:参数化三维人体模型(如SMPL)推动了人体姿态与形状估计领域的显著进展,但其简化的运动学限制了生物力学的真实性。近期提出的SKEL模型通过为SMPL配备解剖学精确的骨架解决了这一局限。然而,由于训练数据有限、透视模糊性以及人体关节固有的复杂性,直接估计SKEL参数仍具挑战性。本文提出SKEL-CF,一种用于SKEL参数估计的从粗到精框架。SKEL-CF采用基于Transformer的编码器-解码器架构:编码器预测粗略的相机参数与SKEL参数,解码器通过逐层迭代进行精细化修正。为确保解剖学一致性监督,我们将现有基于SMPL的数据集4DHuman转换为SKEL对齐版本4DHuman-SKEL,为SKEL估计提供高质量训练数据。此外,为缓解深度与尺度模糊性问题,我们在SKEL-CF流程中显式引入相机建模,并验证了其在多视角下的重要性。大量实验证明了所提设计的有效性。在具有挑战性的MOYO数据集上,SKEL-CF取得了85.0 MPJPE / 51.4 PA-MPJPE的指标,显著优于此前基于SKEL的先进方法HSMR(104.5 / 79.6)。这些结果表明SKEL-CF是一个可扩展且解剖学可信的人体运动分析框架,弥合了计算机视觉与生物力学之间的鸿沟。项目实现已公开于:https://pokerman8.github.io/SKEL-CF/。

0
下载
关闭预览

相关内容

CF:ACM International Conference on Computing Frontiers。 Explanation:计算机前沿国际会议。 Publisher: ACM。 SIT: http://dblp.uni-trier.de/db/conf/cf
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2023年8月7日
Arxiv
13+阅读 · 2023年2月7日
Conditional Prompt Learning for Vision-Language Models
Arxiv
13+阅读 · 2022年3月10日
Arxiv
19+阅读 · 2021年6月15日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关论文
Arxiv
14+阅读 · 2023年8月7日
Arxiv
13+阅读 · 2023年2月7日
Conditional Prompt Learning for Vision-Language Models
Arxiv
13+阅读 · 2022年3月10日
Arxiv
19+阅读 · 2021年6月15日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员