Despite great progress in video-based 3D human pose estimation, it is still challenging to learn a discriminative single-pose representation from redundant sequences. To this end, we propose a novel Transformer-based architecture, called Lifting Transformer, for 3D human pose estimation to lift a sequence of 2D joint locations to a 3D pose. Specifically, a vanilla Transformer encoder (VTE) is adopted to model long-range dependencies of 2D pose sequences. To reduce redundancy of the sequence and aggregate information from local context, fully-connected layers in the feed-forward network of VTE are replaced with strided convolutions to progressively reduce the sequence length. The modified VTE is termed as strided Transformer encoder (STE) and it is built upon the outputs of VTE. STE not only significantly reduces the computation cost but also effectively aggregates information to a single-vector representation in a global and local fashion. Moreover, a full-to-single supervision scheme is employed at both the full sequence scale and single target frame scale, applying to the outputs of VTE and STE, respectively. This scheme imposes extra temporal smoothness constraints in conjunction with the single target frame supervision. The proposed architecture is evaluated on two challenging benchmark datasets, namely, Human3.6M and HumanEva-I, and achieves state-of-the-art results with much fewer parameters.


翻译:尽管在基于视频的 3D 人的构成估计方面取得了巨大进展,但从冗余序列中学习一个具有歧视性的单一位置代表仍然具有挑战性。为此,我们提议建立一个新型的基于变异器结构,称为“提升变异器”,用于3D 人的构成估计,将2D 联合位置的序列提升为3D 组合。具体地说,采纳了香草变异器编码器(VTE),以模拟长期依赖2D 组合序列。为了减少当地背景的序列和综合信息的冗余,VTE进进进取网络中完全连接的层被替换为螺旋式共振动,以逐步缩短序列长度。修改的变异器被称为“飞动变异器”编码器(STE),以VTE的输出为基础。 STE 不仅大幅降低计算成本,而且有效地将信息汇总到全球和地方模式的单一矢量代表制。此外,在全序规模和单一目标框架规模上都采用全到全链接的层监督机制,对VTE 和STE 的参数分别适用VTE 和Sl-ximal imal imal ass construeal constrational constrateal sal sal sal sal sal sal sal sal sal sal sal sal schemal schemal schemal schemal schemal sal sal scheutal 和S 这个系统, 和Syal sal sal sal sal sal sal sal sal sal sal sal sal 计划, 和人类基框架分别规定了两个。 和人类基框架。 这个结构。 和人类基准框架, 和人类基框架的模型, 。

0
下载
关闭预览

相关内容

专知会员服务
109+阅读 · 2020年3月12日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Facebook实时人体姿态估计:Dense Pose及其应用展望
机器之心
9+阅读 · 2019年2月10日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
VIP会员
Top
微信扫码咨询专知VIP会员