IROS 2021 | PTT:把Transformer应用到3D点云目标跟踪任务

2021 年 12 月 30 日 CVer

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

PTT: Point-Track-Transformer Module for 3D Single Object Tracking in Point Clouds

论文已于今年六月份中稿机器人领域顶会IROS 2021。

论文地址:https://arxiv.org/abs/2108.06455

作者单位:东北大学(沈阳)

代码整理中,即将开源:

https://github.com/shanjiayao/PTT

实验视频链接:

bilibili:  https://www.bilibili.com/video/BV1Uf4y157UE/

YouTube:https://www.youtube.com/watch?v=lttRtYXxUic


主要贡献:


  • 一个针对基于点云三维单目标跟踪的Point-Track-Transformer (PTT)模块,可以在追踪过程中有效权衡点云特征以聚焦于更深层次的目标线索。

  • 一个嵌入了PTT组件的PTT-NET网络,可进行端到端的训练。这是第一个基于点云应用transformer到三维目标跟踪任务的方法。(截止投稿时)

图1: 与现有的三维单目标跟踪方法相比,我们的PTT模块在计算相似度特征后根据特征的重要性对特征进行加权,以提高跟踪器的性能。

摘要:


三维单目标跟踪是机器人技术中的一个关键问题。本文提出了一种基于点云的三维单目标跟踪的transformer 模块:Point-Track-Transformer (PTT)。PTT模块包含特征嵌入、位置编码和自注意力三个模块特征计算。特征嵌入旨在将语义信息相似的特征在嵌入空间中放置得更近。位置编码用于将原始点云坐标编码为高维可分辨特征。自注意通过计算注意权重产生更细化的注意力特征。此外,我们将PTT模块嵌入到开源方法P2B中来构建PTT-NET。在KITTI数据集上的实验表明,我们的PTT-Net显著的超越了现有的基于点云的单目标跟踪方法(涨了10个点)。此外,PTT-Net还可以在 1080Ti GPU上实现实时性能(40fps)。我们的代码是面向机器人社区的开源代码,网址是https:https://github.com/shanjiayao/PTT


图2: PTT组件结构示意图


方法:


特征嵌入:该工作采用线性层完成特征嵌入操作,对输入点云特征进行映射;将点云特征从D维映射到M维,用于将语义信息相似的特征在嵌入空间中放置得更近。


位置编码:由于三维点云坐标本身自带位置属性,就是位置编码的自然输入。因此,我们直接利用输入的点云坐标作为位置编码模块的输入。此外,我们利用相对坐标使网络更好地捕捉点与点之间的空间相关性和局部几何形状信息。


自注意力:自注意力部分,我们采用vector attention的结构来计算对输入特征进行加权。公式如下:


PTT-Net:


为了证明我们的PTT组件的有效性,我们将我们的PTT组件嵌入到开源工作P2B中,构建了我们的PTT-Net网络。我们分别将PTT组件加在P2B网络的种子投票阶段和提议框生成阶段。具体如下图所示:


图3: PTT-Net网络结构示意图


定量实验结果:


表1:KITTI数据集上车辆类别跟踪结果

相较于baseline方法,涨了10个点。


定性实验结果:


加入PTT组件后,算法在点云稀疏场景下,跟踪性能有显著提升。


ICCV和CVPR 2021论文和代码下载


后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


CVer-Transformer交流群成立


扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。


一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲长按加小助手微信,进交流群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看
登录查看更多
0

相关内容

标跟踪是指:给出目标在跟踪视频第一帧中的初始状态(如位置,尺寸),自动估计目标物体在后续帧中的状态。 目标跟踪分为单目标跟踪和多目标跟踪。 人眼可以比较轻松的在一段时间内跟住某个特定目标。但是对机器而言,这一任务并不简单,尤其是跟踪过程中会出现目标发生剧烈形变、被其他目标遮挡或出现相似物体干扰等等各种复杂的情况。过去几十年以来,目标跟踪的研究取得了长足的发展,尤其是各种机器学习算法被引入以来,目标跟踪算法呈现百花齐放的态势。2013年以来,深度学习方法开始在目标跟踪领域展露头脚,并逐渐在性能上超越传统方法,取得巨大的突破。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR2022】EDTER:基于Transformer的边缘检测(CVPR2022)
专知会员服务
31+阅读 · 2022年3月18日
专知会员服务
19+阅读 · 2021年8月5日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
33+阅读 · 2021年5月12日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
专知会员服务
25+阅读 · 2021年3月7日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
55+阅读 · 2021年3月3日
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
Arxiv
3+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
17+阅读 · 2021年3月29日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员