The 3D pose estimation from a single image is a challenging problem due to depth ambiguity. One type of the previous methods lifts 2D joints, obtained by resorting to external 2D pose detectors, to the 3D space. However, this type of approaches discards the contextual information of images which are strong cues for 3D pose estimation. Meanwhile, some other methods predict the joints directly from monocular images but adopt a 2.5D output representation $P^{2.5D} = (u,v,z^{r}) $ where both $u$ and $v$ are in the image space but $z^{r}$ in root-relative 3D space. Thus, the ground-truth information (e.g., the depth of root joint from the camera) is normally utilized to transform the 2.5D output to the 3D space, which limits the applicability in practice. In this work, we propose a novel end-to-end framework that not only exploits the contextual information but also produces the output directly in the 3D space via cascaded dimension-lifting. Specifically, we decompose the task of lifting pose from 2D image space to 3D spatial space into several sequential sub-tasks, 1) kinematic skeletons \& individual joints estimation in 2D space, 2) root-relative depth estimation, and 3) lifting to the 3D space, each of which employs direct supervisions and contextual image features to guide the learning process. Extensive experiments show that the proposed framework achieves state-of-the-art performance on two widely used 3D human pose datasets (Human3.6M, MuPoTS-3D).
翻译:3D 从单一图像中得出的估计是一个具有挑战性的问题,因为深度模糊。 一种先前的方法将使用外部 2D 显示探测器获得的 2D 连接提升到 3D 空间。 然而, 这种方法抛弃了3D 显示的强烈提示的图像背景信息。 同时, 其他一些方法直接从单视图像中预测连接,但采用了2.5D 输出代表 $P ⁇ 2.5D = (u,v,z ⁇ r}) = (u,v,z ⁇ r}) 美元, 其中, 美元和美元都在图像空间中, 美元和美元在3D 3D 空间中。 因此, 通常会利用地面真相信息(例如,从摄像头的根连接深度) 将2.5D 输出转换到 3D 空间, 这限制了实际应用。 在这项工作中, 我们提出了一个新的端对端对端框框架,不仅利用背景信息,而且还通过升级的尺寸提升直接生成3D 3D 空间框架 。 具体地, 我们将拟议将2D 图像提升任务从2D 显示为 3D 3D 直接空间 进行空间 直接 进行空间 的深度, 进行空间 3D 直接 3D 3D 显示为3D 将 的 的 将 将 将 将 将 将 直接 将 3D 3D 将 将 将 将 将 将 进行 进行 进行 进行 进行 进行 进行 进行 3D 3D 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行