There are two mainstreams for object detection: top-down and bottom-up. The state-of-the-art approaches mostly belong to the first category. In this paper, we demonstrate that the bottom-up approaches are as competitive as the top-down and enjoy higher recall. Our approach, named CenterNet, detects each object as a triplet keypoints (top-left and bottom-right corners and the center keypoint). We firstly group the corners by some designed cues and further confirm the objects by the center keypoints. The corner keypoints equip the approach with the ability to detect objects of various scales and shapes and the center keypoint avoids the confusion brought by a large number of false-positive proposals. Our approach is a kind of anchor-free detector because it does not need to define explicit anchor boxes. We adapt our approach to the backbones with different structures, i.e., the 'hourglass' like networks and the the 'pyramid' like networks, which detect objects on a single-resolution feature map and multi-resolution feature maps, respectively. On the MS-COCO dataset, CenterNet with Res2Net-101 and Swin-Transformer achieves APs of 53.7% and 57.1%, respectively, outperforming all existing bottom-up detectors and achieving state-of-the-art. We also design a real-time CenterNet, which achieves a good trade-off between accuracy and speed with an AP of 43.6% at 30.5 FPS. https://github.com/Duankaiwen/PyCenterNet.


翻译:对象检测有两个主流: 上到下到下到下到下到下到下到上到下到下到上到上到下到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到下到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到下到上。 左到下到上到上到上到上, 右到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上都到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到上到都都都都都到上到都到都都到都到都到都到都到都到都到都到都到都到全部全部到全部全部到全部到全部到全部到全部到全部到全部到全部到全部全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部全部全部全部全部全部全部全部全部到全部到全部到全部全部全部全部到全部到全部到全部到全部到全部到全部全部全部到全部全部全部全部全部全部全部全部全部全部全部全部全部全部到全部到全部到全部到全部到全部到全部到全部全部到全部到全部到全部到全部到全部到全部到全部到全部到全部到全部都在去去去去去去去去去去去去去去去去去去去去去去去去去去去去去去去去去去去去去去去

0
下载
关闭预览

相关内容

CenterNet由中科院,牛津大学以及华为诺亚方舟实验室联合提出,截至目前,CenterNet应该是one-stage目标检测方法中性能最好的方法。
专知会员服务
30+阅读 · 2021年6月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
大白话用Transformer做Object Detection
PaperWeekly
2+阅读 · 2022年5月3日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
11+阅读 · 2022年3月16日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
12+阅读 · 2019年4月9日
VIP会员
相关VIP内容
专知会员服务
30+阅读 · 2021年6月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
大白话用Transformer做Object Detection
PaperWeekly
2+阅读 · 2022年5月3日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员