Recently, DETR and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, an end-to-end video object detection model based on a spatial-temporal Transformer architecture. The goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow, recurrent neural networks, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS or Tubelet rescoring, which keeps the pipeline simple and clean. In particular, we present temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal Transformer consists of three components: Temporal Deformable Transformer Encoder (TDTE) to encode the multiple frame spatial details, Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (3%-4% mAP) on the ImageNet VID dataset. TransVOD yields comparable results performance on the benchmark of ImageNet VID. We hope our TransVOD can provide a new perspective for video object detection. Code will be made publicly available at https://github.com/SJTU-LuHe/TransVOD.


翻译:最近,已提议DERTR和变形的DETR, 以消除在物体探测中需要手动设计的许多部件的需要, 同时以先前复杂的手工操作探测器显示良好的性能。 但是, 尚未很好地探索这些部件在视频物件探测( VOD) 上的性能。 在本文中, 我们介绍一个基于空间时空变换器结构的端到端视频物体探测模型TransVOD。 本文的目标是简化VOD的管道, 有效地消除对功能聚合中许多手工制作部件的需要, 例如, 光学流、 经常性神经网络、 关系网络。 此外, 我们的方法受益于 DTR 的目标查询设计, 我们的方法不需要复杂的后处理方法, 如 Seq- NMS 或 Tubeletrecol Recoring 。 特别是, 我们展示时间变异性图像查询和每个框架的特征记忆。 我们的时间变异性图像检测( TDTE) 三个组成部分, 来编码多框架空间细节, Temortial Text Trude- decode droduder 。 这些变现的图像测试, 将获得可比较性变压的当前变压模型的图像测试结果测试。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
97+阅读 · 2020年8月30日
专知会员服务
109+阅读 · 2020年3月12日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
90+阅读 · 2019年10月16日
已删除
将门创投
4+阅读 · 2020年6月12日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
VIP会员
Top
微信扫码咨询专知VIP会员