The strong demand of autonomous driving in the industry has lead to strong interest in 3D object detection and resulted in many excellent 3D object detection algorithms. However, the vast majority of algorithms only model single-frame data, ignoring the temporal information of the sequence of data. In this work, we propose a new transformer, called Temporal-Channel Transformer, to model the spatial-temporal domain and channel domain relationships for video object detecting from Lidar data. As a special design of this transformer, the information encoded in the encoder is different from that in the decoder, i.e. the encoder encodes temporal-channel information of multiple frames while the decoder decodes the spatial-channel information for the current frame in a voxel-wise manner. Specifically, the temporal-channel encoder of the transformer is designed to encode the information of different channels and frames by utilizing the correlation among features from different channels and frames. On the other hand, the spatial decoder of the transformer will decode the information for each location of the current frame. Before conducting the object detection with detection head, the gate mechanism is deployed for re-calibrating the features of current frame, which filters out the object irrelevant information by repetitively refine the representation of target frame along with the up-sampling process. Experimental results show that we achieve the state-of-the-art performance in grid voxel-based 3D object detection on the nuScenes benchmark.


翻译:行业内自主驱动的强烈需求导致对3D天体探测的强烈兴趣,并产生了许多出色的3D天体探测算法。然而,绝大多数算法只模拟单一框架数据,忽略数据序列的时间信息。在这项工作中,我们提议了一个新的变压器,称为Temporal-Channel变异器,以模拟空间时空域和频道域关系,用于从利达尔数据中探测视频物体。作为这一变压器的特殊设计,编码器中的信息与解码器中的信息不同,即编码器编码为多框架的时道信息,而解码器则忽略了数据序列的时间范围信息。具体地说,变压器的时空通道编码器旨在利用不同频道和框架的特性之间的关联,对不同变码器编码的信息进行编码。另一方面,变码器的变码器将解码器中多个框架的每个位置的时道密码,即多框架的时道信息,同时解码器解码器解码器解码器用当前框架的时空通道信息,而当前框架的空道解码解码器解码器解码器用不规则标标标标标标,先进行比标标标标标标标标,然后进行比标标标标标标标标标标的镜,然后进行S 测试标标标标标标标标标的镜,在比的镜标的镜标的镜标标标的镜标的镜标的测试框架的测试框架上,然后进行S的变格测试标的变格测试标的变格测试标,在SB底的镜标,在SB底的镜框中,在SB框中,在比的镜框中进行SB的镜式测试式测试底的镜式测试框中,在比的镜式测试框中,在比上,在比上,在比上,在比上,在S的定位框上进行中进行中进行上,在比标框上,在比标框内的镜框上进行中进行中进行中进行中进行中进行中,在SB底的测试底的测试底的测试底的测试底的测试底的测试底的测试底的测试底的测试底的测试底的测试底的测试底的测试底的镜框上,在比,

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
109+阅读 · 2020年3月12日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
【泡泡一分钟】3D物体的特征编码变种
泡泡机器人SLAM
4+阅读 · 2019年1月1日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Monocular Plan View Networks for Autonomous Driving
Arxiv
6+阅读 · 2019年5月16日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
VIP会员
相关资讯
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
【泡泡一分钟】3D物体的特征编码变种
泡泡机器人SLAM
4+阅读 · 2019年1月1日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员