AAAI 2022 | SASA：重新思考3D目标检测中的点云采样问题

2022 年 3 月 1 日 CVer

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

自动驾驶技术近年来迅速发展，其中无人车对周围环境的感知是最为重要的一个环节。为了保障行车安全，场景感知模块需要在三维环境中精确定位其他交通参与者，如车辆、行人、障碍物等。构建高精确度的场景感知模型对自动驾驶系统稳定安全地操纵车辆运行具有重要意义，因此3D物体检测（3D object detection）这一任务受到大量研究者关注。

目前，基于点云的3D物体检测模型主要分为划分体素进行特征提取的voxel-based方法和对点云直接进行特征提取的point-based方法。其中，在主流point-based方法中对点云进行下采样时容易丢弃很多前景点造成信息丢失，进而影响定位性能。

京东探索研究院联合悉尼大学提供了一种新的点云特征提取思路来帮助3D检测模型更多地关注前景物体，从而提高检测的精确度。该工作目前已被AAAI2022接收。

研究背景

3D检测任务中，点云（point cloud）图像是一种非常常见的视觉输入形式。相比于RGB图像，点云可以更好地提供深度信息从而帮助3D检测模型更好地定位物体的三维空间坐标。然而，由于点云是由非常多的离散点组成，其形式上与RGB图像有很大的差别，常见的特征提取网络（如卷积神经网络）无法直接在点云上使用。目前的3D检测器主要可以分为voxel-based方法和point-based方法，voxel-based方法将点云所处的3D空间划分成均匀的体素（voxel），再利用卷积神经网络在体素上进行特征提取；point-based方法通过特定网络PointNet直接对离散点进行特征提取。相比于voxel-based方法，point-based方法避免了体素化（voxelization）过程中的信息损失而被认为有更高的精度[2][3]。然而，我们发现在PointNet网络在对点云进行下采样过程中常用的采样策略容易丢弃大部分前景点，导致3D物体的空间信息没有被神经网络充分提取，进而影响了检测精度。

方法原理

图1 SASA整体框架

为了使PoineNet能够在特征提取过程中主动地关注前景区域以提供更多与待检测物体有关的特征信息，我们选择直接使用输入点的语义信息作为启发式信息来引导采样算法选择更多的前景点。所以，我们在原生PointNet的下采样层 SA Layer上进行了以下两点改进：

(1) Point Segmentation Module

为了得到输入点集合的前景-背景分布，我们在SA Layer 中引入了一个轻量级的分割模块。它是一个两层的MLP网络，并从输入点的特征中判断该点是否属于前景点，并输出一个0到1之间的分数。

分割模块可以直接由一个交叉熵损失进行端到端优化，每个点的分割标签可以由ground-truth 3D框直接得到，在框内部的所有点被视为前景点，外部的则视为背景点。

(2) Semantics-guided Point Sampling

我们已经得到了输入点的前景-背景分布，接下来我们对下采样算法Farthest Point Sampling (FPS) 进行改进，使其能够利用分割模块计算出的分数去选择更多的前景点。我们将它称为Semantics-guided Farthest Point Sampling (S-FPS)，S-FPS算法具体流程如下：

相比于FPS算法，我们进行了以下修改：

1、将原始的选择策略由欧几里得距离 $d_{k}$ 更改为语义修正距离 $p_{k}^{\gamma} \cdot d_{k} 。 p_{k}$ 为分割模块预测的分数， ${\gamma}$ 是一个平衡参数来控制语义信息的权重。这样一来，前景点往往有更大的语义修正距离而更容易被采样算法选中。

2、为了保证在不同的输入点排列下采样算法可以产生一致的结果 (permutation-irrelevant) [4]，我们在第一轮的选择中直接选择分数最高的点，这样一来所有后续的选择都是唯一的。

实验结果

我们在两个典型的point-based方法中实现了SASA并测试它们的性能，一个是单阶段检测器3DSSD[3]，一个是双阶段检测器PointRCNN[5]。

表1 不同方法在KITTI 3D detection benchmark上的检测结果

在KITTI test set中，SASA成功帮助3DSSD 取得了非常明显的精度提升，尤其是在Moderate和Hard难度上分别取得了2.59%, 2.61%的提升，并达到了SOTA水平。

表2 SASA对3DSSD和PointRCNN在KITTI validation set上的效果

在KITTI validation set中，SASA对两个point-based方法在三个难度上均有提升，其中在Hard难度上对PointRCNN有大幅度的提升。

表3 PointRCNN中SASA对前景点采样的影响

我们逐层统计并对比了PointRCNN上每一层SA Layer中所保留的前景点的数量，由表格可以明显看出，引入SASA模块后，SA Layer所采样的前景点数量成倍增加。

图2 3DSSD上的可视化结果

我们对检测结果和PointNet SA Layer采样点进行了可视化。如图所示，上图为3DSSD baseline的可视化结果，下图为引入SASA后的可视化结果。红色框和绿色框分别表示ground-truth标签和3DSSD的预测结果，粉色点表示3DSSD backbone的最后一层SA Layer所采样的前景点。可以看出，SASA保留的前景点更加密集，因此较远的物体和被遮挡的物体等难样本能更容易地被检测网络恢复出来。

总结与展望

本文提出了一种与语义结合的SASA模块来帮助3D检测模型更好地关注前景区域以提升检测精度，SASA可以很容易地移植到多种point-based检测器上并发挥作用。

我们希望SASA可以帮助point-based检测器解决采样问题以达到SOTA水平；将来，我们希望尝试将SASA的思想推广到其他任务中（如点云的语义分割、实例分割等）来帮助point-based方法取得进一步突破。

文章链接：https://arxiv.org/abs/2201.01976

项目链接：https://github.com/blakechen97/SASA

参考文献

[1] Chen, C., Chen, Z., Zhang, J., & Tao, D. (2022). SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object Detection. arXiv preprint arXiv:2201.01976.

[2] Shi, S., Guo, C., Jiang, L., Wang, Z., Shi, J., Wang, X., & Li, H. (2020). Pv-rcnn: Point-voxel feature set abstraction for 3d object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10529-10538).

[3] Yang, Z., Sun, Y., Liu, S., & Jia, J. (2020). 3dssd: Point-based 3d single stage object detector. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 11040-11048).

[4] Yang, J., Zhang, Q., Ni, B., Li, L., Liu, J., Zhou, M., & Tian, Q. (2019). Modeling point clouds with self-attention and gumbel subset sampling. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3323-3332).

[5] Shi, S., Wang, X., & Li, H. (2019). Pointrcnn: 3d object proposal generation and detection from point cloud. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 770-779).

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

CVer-Transformer交流群成立

扫码添加CVer助手，可申请加入CVer-Transformer 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加小助手微信，进交流群

CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

登录查看更多

相关内容

点云

关注 48

根据激光测量原理得到的点云，包括三维坐标（XYZ）和激光反射强度（Intensity）。根据摄影测量原理得到的点云，包括三维坐标（XYZ）和颜色信息（RGB）。结合激光测量和摄影测量原理得到点云，包括三维坐标（XYZ）、激光反射强度（Intensity）和颜色信息（RGB）。在获取物体表面每个采样点的空间坐标后，得到的是一个点的集合，称之为“点云”(Point Cloud)

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

AAAI 2022 | SASA: 重新思考三维物体检测中的点云采样问题

专知会员服务

24+阅读 · 2022年3月1日

【CVPR2021】重新思考BiSeNet让语义分割模型速度起飞

专知会员服务

34+阅读 · 2021年5月5日

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

专知会员服务

18+阅读 · 2021年5月3日