【泡泡图灵智库】基于CPU的实时6D物体姿态估计（arXiv）

会员服务 ·

【泡泡图灵智库】基于CPU的实时6D物体姿态估计（arXiv）

2019 年 1 月 26 日 泡泡机器人SLAM

泡泡图灵智库，带你精读机器人顶级会议文章

标题：Real-Time 6D Object Pose Estimation on CPU

作者： Yoshinori Konishi ，Kosuke Hattori ，Manabu Hashimoto

来源：Arxiv

编译：侯延华

审核：谢泽如

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

本文提出了一种基于模板的从RGB-D图像快速估计6D物体姿态的方法。

模板由密集采样产生。

运用了3种主要技术：

PCOF-MOD，(多模态透视累积定向特征)：在混乱背景下，不增加虚警的前提下只放松3D目标姿态微小变化的匹配条件，提高了在混乱背景条件下的鲁棒性。

BPT：基于树的数据结构，分辨率与金字塔相似，降低了2D位置和3D姿态的搜索空间，用于高效匹配大量的模板。

用于从粗到精搜索的优化内存重组：低分辨率图像金字塔重组后相邻像素的不同特征对齐，在此基础上运行SIMD模板匹配。

bin picking数据集上的桌面电脑实验结果表明：在准确率和速度方面优于当下包括基于CNN在内的方法。使用3D CAD数据可以在几分钟之内完成模板训练；姿态估计在CPU环境下只需要23fps，几乎是实时的。

研究背景

当前主要有3种估计6D目标姿态的方法：

1 基于模板的：

多种特征可供使用边缘、轮廓等，深度信息可以提高鲁棒性；预先计算的响应映射有助于快速计算匹配的相似度；从粗到精的搜索策略、hash 表、GPU等的运用都可以加快匹配速度。

2基于局部描述子：

点对特征(PPF)是目前已知最好的描述子，存在多种变种方法。比基于模板的方法慢。

3.基于学习的：

在应对混乱背景和局部遮挡问题方面比较好，匹配速度快，但是训练需要大量有标记样本和大量的GPU时间。

算法流程

1 构造模板：

PCOF特征对3D姿态引起的外观变化不敏感，从RGB图像抽取的方向梯度--轮廓形状；法线特征--物体的表面形状。

图2 (a)3D CAD电熨斗，坐标轴及采样视角

(b)围绕某一坐标轴随机视角的深度图像样本

1.1 4个参数(x, y, optical轴, 到目标距离)均匀分布随机采样的视角渲染得到深度图像。

图4 从二十面体开始递归分解为

1280面 (642 节点)正多面体

这些视角相当于正多面体的节点。从最左的正二十面体开始递归二分每个边，最终得到1280正多面体。

1.2 对上面的深度图像Sobel算子对轮廓计算梯度向量，通过临近点拟合平面计算法线向量。

1.3计算每个像素的梯度、法线的方向8-bins直方图和反应深度的权值--计算每个像素的梯度和法线方向的分布(频率)。

1.4最后获取主方向。

图3 直方图、量化方向特征(ori)及权值(w)

得到两种模板

输入图像在像素(x,y)与模板的相似度计算：

2 .BPT: Balanced Pose Tree伪代码

BPT 是一个 B-trees 组( depth 0,1,2,3 )每个parent 节点有12-16个子节点。

3.内存重组以便于从粗到精的搜索

图5 内存重排示意图

匹配的过程是对模板穷举的，SIMD指令可以加速相似度计算。重排后各种level都可以利用SIMD加速。

4.姿态估计与调整

4.1从深度图像计算梯度向量、法向向量

4.2遍历BPT特征根节点，计算相似度(特征金字塔).相似度高于阈值的作为(pose and position)备选。备选区的低层金字塔特征进一步匹配BPT低层模板，最后BPT底层模板的匹配底层金字塔特征获得姿态和位置估计。

4.3 ICP算法做进一步调整。

主要结果

图7. 示例bin-picking dataset.

上: 螺栓及连接件.

中: 支撑和螺母.

下: 管件和金属垫

深度图、灰度图和估计结果

Abstract

We propose a fast and accurate 6D object pose estima- tion from a RGB-D image. Our proposed method is template matching based and consists of three main technical components, PCOF-MOD (multimodal PCOF), balanced pose tree (BPT) and optimum memory rearrangement for a coarse-to-fine search. Our model templates on densely sampled viewpoints and PCOF-MOD which explicitly handles a certain range of 3D object pose improve the robust-ness against background clutters. BPT which is an efficient tree-based data structures for a large number of templates and template matching on rearranged feature maps where nearby features are linearly aligned accelerate the pose estimation. The experimental evaluation on tabletop and binpicking dataset showed that our method achieved higher accuracy and faster speed in comparison with state-of-the-art techniques including recent CNN based approaches. Moreover, our model templates can be trained only from 3D CAD in a few minutes and the pose estimation run in near real-time (23 fps) on CPU. These features are suitable for any real applications.