The 3D pose estimation from a single image is a challenging problem due to depth ambiguity. One type of the previous methods lifts 2D joints, obtained by resorting to external 2D pose detectors, to the 3D space. However, this type of approaches discards the contextual information of images which are strong cues for 3D pose estimation. Meanwhile, some other methods predict the joints directly from monocular images but adopt a 2.5D output representation $P^{2.5D} = (u,v,z^{r}) $ where both $u$ and $v$ are in the image space but $z^{r}$ in root-relative 3D space. Thus, the ground-truth information (e.g., the depth of root joint from the camera) is normally utilized to transform the 2.5D output to the 3D space, which limits the applicability in practice. In this work, we propose a novel end-to-end framework that not only exploits the contextual information but also produces the output directly in the 3D space via cascaded dimension-lifting. Specifically, we decompose the task of lifting pose from 2D image space to 3D spatial space into several sequential sub-tasks, 1) kinematic skeletons \& individual joints estimation in 2D space, 2) root-relative depth estimation, and 3) lifting to the 3D space, each of which employs direct supervisions and contextual image features to guide the learning process. Extensive experiments show that the proposed framework achieves state-of-the-art performance on two widely used 3D human pose datasets (Human3.6M, MuPoTS-3D).


翻译:3D 从单一图像中得出的估计是一个具有挑战性的问题,因为深度模糊。 一种先前的方法将使用外部 2D 显示探测器获得的 2D 连接提升到 3D 空间。 然而, 这种方法抛弃了3D 显示的强烈提示的图像背景信息。 同时, 其他一些方法直接从单视图像中预测连接,但采用了2.5D 输出代表 $P ⁇ 2.5D = (u,v,z ⁇ r}) = (u,v,z ⁇ r}) 美元, 其中, 美元和美元都在图像空间中, 美元和美元在3D 3D 空间中。 因此, 通常会利用地面真相信息(例如,从摄像头的根连接深度) 将2.5D 输出转换到 3D 空间, 这限制了实际应用。 在这项工作中, 我们提出了一个新的端对端对端框框架,不仅利用背景信息,而且还通过升级的尺寸提升直接生成3D 3D 空间框架 。 具体地, 我们将拟议将2D 图像提升任务从2D 显示为 3D 3D 直接空间 进行空间 直接 进行空间 的深度, 进行空间 3D 直接 3D 3D 显示为3D 将 的 的 将 将 将 将 将 将 直接 将 3D 3D 将 将 将 将 将 将 进行 进行 进行 进行 进行 进行 进行 进行 3D 3D 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行

0
下载
关闭预览

相关内容

MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
[CVPR 2020]BEDSR-Net:单张文档图像的阴影去除深度网络
专知会员服务
25+阅读 · 2020年9月29日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
CVPR 2020 论文大盘点-图像增强与图像恢复篇
计算机视觉life
36+阅读 · 2020年7月10日
CVPR2020 | 单目深度估计中的不确定度探究
CVPR 2019 论文大盘点—目标检测篇
极市平台
33+阅读 · 2019年7月1日
人脸专集4 | 遮挡、光照等因素的人脸关键点检测
计算机视觉战队
29+阅读 · 2019年4月11日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
人体骨骼关键点检测综述
极市平台
21+阅读 · 2018年6月29日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Arxiv
27+阅读 · 2020年12月24日
Monocular Plan View Networks for Autonomous Driving
Arxiv
6+阅读 · 2019年5月16日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员