CVPR 2022 | 商汤&南洋理工开源PTTR：基于Transformer的3D点云目标跟踪网络

2022 年 3 月 31 日 CVer

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：轻尘一笑 | 已授权转载（源：知乎）编辑：CVer

https://zhuanlan.zhihu.com/p/490229331

导读：在CVPR 2022上，商汤研究院团队提出了基于Transformer的3D点云跟踪模型PTTR。PTTR首先在特征提取阶段提出利用特征关联进行采样以保存更多跟被跟踪物体相关的点，然后设计了点云关联Transformer模块进行点云特征匹配。最后，PTTR提出一个轻量化的预测修正模块来进一步提升预测的准确性。实验结果显示PTTR在多个数据集上获得显著精度提升。

论文名称: PTTR: Relational 3D Point Cloud Object Tracking with Transformer

Paper: arxiv.org/abs/2112.02857

Code: github.com/Jasonkks/PTTR

问题和挑战

目标跟踪是一个基础的计算机视觉任务，在图像数据上已经获得了广泛的研究。近年来，随着雷达技术的发展，基于点云的目标跟踪也获得了更多的关注。点云数据有一些特有的挑战，比如点云的稀疏性、遮挡以及噪声。这些特点让我们无法直接使用基于图像的算法进行跟踪，而基于点云的跟踪算法目前还没有得到充分研究。点云跟踪的一大挑战是当物体离传感器较远时，稀疏的点云会给跟踪带来很大困难。另外，现有的点云跟踪算法主要采用余弦相似度这种线性方法进行特征的匹配，存在较大的提升空间。

方法介绍

针对以上提出的问题，我们提出了一个新颖的点云跟踪框架，如下图所示。模型分为三个阶段：在特征提取阶段，我们提出了一种新的语义感知采样方法(Semantic-Aware Sampling)，利用模板和搜索区域的特征关系来进行采样，从而保存更多的前景点。在特征匹配阶段，我们提出了一个点云关系Transformer结构（Point Relation Transformer），对模板和搜索区域的特征进行有效匹配。最后我们提出一个预测修正模块（Prediction Refinement Module），通过特征采样的方式来进一步提高预测的准确性。

1. 关系感知采样(Relation-Aware Sampling)

点云的稀疏性是跟踪算法的一大挑战，而点云的特征提取通常伴随着下采样的过程。现有跟踪算法大多采用随机采样的方式，会在采样过程中在搜索区域丢掉大量的前景点，不利于后续的特征匹配。所以我们提出语义感知采样，利用模板和搜索区域的特征距离进行采样。由于模板区域大多数由目标物体上的点云组成，因此我们在搜索区域采样那些特征距离和模板尽可能小的点，就能尽可能地得到更多的前景点。如下图所示，我们对比了不同的采样方法，采样得到的点中位于3维目标框中的比例，可以明显地看到我们提出的RAS最大程度地得到了前景点。

2. 关系增强匹配(Relation-Enhanced Feature Matching)

在跟踪问题中，我们需要匹配模板和搜索区域的点，大多数已有的3D单目标跟踪算法采用了特征的余弦距离，认为余弦距离小的点匹配程度高。与此不同的是，我们基于注意力机制在计算机视觉中的成功应用，设计了基于关系的注意力机制，来匹配模板和搜索区域的点云。如下图所示，我们设计的注意力模块利用了offset-attention，将query，key，value特征进行融合，并通过激活层引入非线性。具体来说，我们先通过一个self-attention模块来分别处理模板和搜索区域点云，接着我们将搜索区域点云作为query，模板区域点云作为key和value，输入到一个cross-attention，就得到了匹配之后的搜索区域点云特征。

3. 从粗到细的预测(Coarse-to-Fine Tracking Prediction)

大多数已有的3D单目标跟踪算法都简单地使用了3D检测器的预测模块，例如Votenet，RPN等。我们认为类似的检测预测模块不可避免地引入了多余的计算，导致了效率的降低。因此我们提出了一个新的预测修正模块，该模块通过从模板点云，搜索点云，融合后的搜索点云分别取出对应点云特征，将他们结合后直接预测。本质上，我们让搜索区域的每一个点，通过不同阶段的特征预测一个proposal。在inference阶段，我们将得分最高的那个proposal作为预测结果。

4. 数据集

除了方法上的贡献，我们还提出了一个基于Waymo Open Dataset新的大规模点云跟踪数据集。由于Waymo中对于每个目标都标注了对应的ID，因此可以提取出某个ID在不同时刻的位置信息，基于此，我们制作了Waymo的单目标跟踪数据集，如下表所示，我们制作的Waymo跟踪数据集在数据量上远远超过了KITTI，为学术界在大数据集上进一步的研究提供了一个baseline。

5. 实验

我们在KITTI， Waymo数据集上分别对比了PTTR和其他模型的效果，如下表所示，可以看到PTTR相比于已有的方法的优势。

为了验证每个模块的效果，我们进行了各种消融实验，实验结果也验证了我们提出的每个模块的有效性。

结语

在本文中，我们提出了一种新的3D点云跟踪模型。它利用关系感知采样来缓解点云稀疏的问题，利用Transformer的注意力机制完成有效的特征匹配，并且利用局部特征采样来进一步提升预测准确性。实验表明我们提出的该方法有效提高了点云跟踪的性能。

Transformer和 3D点云交流群成立

扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-Transformer 或者 3D点云微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信: CVer6666，进交流群

CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

登录查看更多

相关内容

点云

关注 48

根据激光测量原理得到的点云，包括三维坐标（XYZ）和激光反射强度（Intensity）。根据摄影测量原理得到的点云，包括三维坐标（XYZ）和颜色信息（RGB）。结合激光测量和摄影测量原理得到点云，包括三维坐标（XYZ）、激光反射强度（Intensity）和颜色信息（RGB）。在获取物体表面每个采样点的空间坐标后，得到的是一个点的集合，称之为“点云”(Point Cloud)

【TNNLS2022】SGCPNet: 面向实时语义分割的空间细节引导上下文传播网络

专知会员服务

24+阅读 · 2022年4月8日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知会员服务

24+阅读 · 2022年2月6日

【AAAI2022】基于属性的渐进融合网络的RGBT跟踪

专知会员服务

22+阅读 · 2022年1月8日