刷新COCO目标检测纪录!谷歌只靠AI扩增数据,就把一个模型变成SOTA,已开源

2019 年 7 月 2 日 极市平台

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击文末“阅读原文”立刻申请入群~


极市导读】自从团队用机器学习解锁了特别的数据扩增策略,再用自动扩增来的新数据集训练目标检测模型,事情就完全不同了。

本文转载自公众号:量子位


谷歌大脑Quoc Le团队,又训练出了一只地表最强的模型。

这是一个目标检测模型,从前并不是最强大。

但自从团队用机器学习解锁了特别的数据扩增策略,再用自动扩增来的新数据集训练目标检测模型,事情就完全不同了。

注意:目标检测和分类不一样,分类不需要标注边界框,而目标检测需要。

 左边是自动扩增数据,右边是成绩提升

模型在COCO目标检测任务上,拿到了50.7 mAP的最高分,刷新从前的纪录。

谷歌的方法,并没有改变模型本身,但有效提升了准确率,+2.3 mAP以上。

团队还强调,AI在COCO数据集里学到的扩增策略,直接迁移到其他数据集上,同样可以提升准确率。

现在,算法已经开源了,AI学到的扩增策略也在里面。

是怎样的扩增策略?

论文写到,这里的数据扩增只涉及了一些简单变换 (Simple Transformations) :

有应用在整张图片上、但不会影响边界框的那种变换,比如从图像分类里借来的颜色变换 (Color Transformations)。

也有不影响整张图片、但改变边界框位置的那种变换,比如图像平移 (Translating) 或剪切 (Shearing) 。

还有只针对边界框里的目标,而进行的变换。

注意,这些变换只用在训练过程中,不会用到测试环节里。

研究人员说,当变换的数量越来越庞大的时候,就很难手动把它们有效组合到一起了。

所以,就要用机器学习,搜索出更适合目标检测任务的组合策略。

思路是这样的:

团队把数据扩增搜索 (Data Augmentation Search) 看做一个离散的优化问题,优化的是模型的泛化表现

在自家的另一篇论文 (arXiv:1805.09501) 基础上,把重点转移到针对目标检测的扩增策略上。

比起图像分类任务的数据扩增,目标检测的难点在于,要保持边界框和发生形变的图像之间的一致性 (Consistency) 。

而边界框的标注,也为数据扩增提供了一种新的方式:只在边界框里面修改图像。就像上文讲的那样。

另外,团队还探索了在图片发生几何变换 (Geometric Transformations) 的情况下,怎样去改变边界框的位置。

具体方法是这样的:

把扩增策略定义成一组无序的子策略 (Sub-Policy) 。

在训练过程中,每个子策略都会被随机选中,应用到当前的图片里去。

每个子策略里,有N个图片变换,依次在同一张图上进行。

要把这个搜索过程,变成一个离散的优化问题,就要创建一个搜索空间。

空间里面,有5个种策略,每种子策略有2种图像变换运算。

另外,每个运算还和两个超参数相关联,一个是代表应用这个运算的可能性 (Probability) ,二是这个运算的大小 (Magnitude) 。

初步实验之后,团队定下了22种图像变换运算。

学习完成的子策略,成效是这样的:

肉眼可见,成效显著。

一是在COCO目标检测中,以50.7 mAP拔得头筹,(比策略训练前) 提升了2.3 mAP

二是在PASCAL VOC目标检测中,提升了2.7 mAP。

也就是说,在COCO上训练好的策略,直接搬到其他数据集上也有效。

团队说,这个方法尤其适合在小数据集中避免过拟合

现在,代码开源了,你也要试试么?

论文传送门:
https://arxiv.org/abs/1906.11172

代码传送门:
https://github.com/tensorflow/tpu/tree/master/models/official/detection

(完)




*延伸阅读



点击左下角阅读原文”,即可申请加入极市目标跟踪、目标检测、工业检测、人脸方向、视觉竞赛等技术交流群,更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流,一起来让思想之光照的更远吧~


△长按关注极市平台


觉得有用麻烦给个在看啦~  

登录查看更多
5

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
72+阅读 · 2020年4月24日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
斯坦福&谷歌Jeff Dean最新Nature论文:医疗深度学习技术指南
港中文开源基于PyTorch的多任务人脸识别框架
极市平台
17+阅读 · 2019年8月31日
已删除
将门创投
12+阅读 · 2019年7月1日
一种小目标检测中有效的数据增强方法
极市平台
117+阅读 · 2019年3月23日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
谷歌放大招!数据增强实现自动化
新智元
8+阅读 · 2018年6月4日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
3+阅读 · 2017年10月1日
Arxiv
23+阅读 · 2017年3月9日
VIP会员
相关资讯
港中文开源基于PyTorch的多任务人脸识别框架
极市平台
17+阅读 · 2019年8月31日
已删除
将门创投
12+阅读 · 2019年7月1日
一种小目标检测中有效的数据增强方法
极市平台
117+阅读 · 2019年3月23日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
谷歌放大招!数据增强实现自动化
新智元
8+阅读 · 2018年6月4日
相关论文
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
3+阅读 · 2017年10月1日
Arxiv
23+阅读 · 2017年3月9日
Top
微信扫码咨询专知VIP会员