刷新COCO目标检测纪录！谷歌只靠AI扩增数据，就把一个模型变成SOTA，已开源 - 专知

会员服务 ·

0

刷新COCO目标检测纪录！谷歌只靠AI扩增数据，就把一个模型变成SOTA，已开源

2019 年 6 月 28 日 量子位

栗子发自凹非寺
量子位报道 | 公众号 QbitAI

谷歌大脑Quoc Le团队，又训练出了一只地表最强的模型。

这是一个目标检测模型，从前并不是最强大。

但自从团队用机器学习解锁了特别的数据扩增策略，再用自动扩增来的新数据集训练目标检测模型，事情就完全不同了。

注意：目标检测和分类不一样，分类不需要标注边界框，而目标检测需要。

△ 左边是自动扩增数据，右边是成绩提升

模型在COCO目标检测任务上，拿到了50.7 mAP的最高分，刷新从前的纪录。

谷歌的方法，并没有改变模型本身，但有效提升了准确率，+2.3 mAP以上。

团队还强调，AI在COCO数据集里学到的扩增策略，直接迁移到其他数据集上，同样可以提升准确率。

现在，算法已经开源了，AI学到的扩增策略也在里面。

是怎样的扩增策略？

论文写到，这里的数据扩增只涉及了一些简单变换 (Simple Transformations) ：

有应用在整张图片上、但不会影响边界框的那种变换，比如从图像分类里借来的颜色变换 (Color Transformations)。

也有不影响整张图片、但改变边界框位置的那种变换，比如图像平移 (Translating) 或剪切 (Shearing) 。

还有只针对边界框里的目标，而进行的变换。

注意，这些变换只用在训练过程中，不会用到测试环节里。

研究人员说，当变换的数量越来越庞大的时候，就很难手动把它们有效组合到一起了。

所以，就要用机器学习，搜索出更适合目标检测任务的组合策略。

思路是这样的：

团队把数据扩增搜索 (Data Augmentation Search) 看做一个离散的优化问题，优化的是模型的泛化表现。

在自家的另一篇论文 (arXiv:1805.09501) 基础上，把重点转移到针对目标检测的扩增策略上。

比起图像分类任务的数据扩增，目标检测的难点在于，要保持边界框和发生形变的图像之间的一致性 (Consistency) 。

而边界框的标注，也为数据扩增提供了一种新的方式：只在边界框里面修改图像。就像上文讲的那样。

另外，团队还探索了在图片发生几何变换 (Geometric Transformations) 的情况下，怎样去改变边界框的位置。

具体方法是这样的：

把扩增策略定义成一组无序的子策略 (Sub-Policy) 。

在训练过程中，每个子策略都会被随机选中，应用到当前的图片里去。

每个子策略里，有N个图片变换，依次在同一张图上进行。

要把这个搜索过程，变成一个离散的优化问题，就要创建一个搜索空间。

空间里面，有5个种策略，每种子策略有2种图像变换运算。

另外，每个运算还和两个超参数相关联，一个是代表应用这个运算的可能性 (Probability) ，二是这个运算的大小 (Magnitude) 。

初步实验之后，团队定下了22种图像变换运算。

学习完成的子策略，成效是这样的：

肉眼可见，成效显著。

一是在COCO目标检测中，以50.7 mAP拔得头筹，(比策略训练前) 提升了2.3 mAP。

二是在PASCAL VOC目标检测中，提升了2.7 mAP。

也就是说，在COCO上训练好的策略，直接搬到其他数据集上也有效。

团队说，这个方法尤其适合在小数据集中避免过拟合。

现在，代码开源了，你也要试试么？

论文传送门：
https://arxiv.org/abs/1906.11172

代码传送门：
https://github.com/tensorflow/tpu/tree/master/models/official/detection

— 完 —

AI社群 | 与优秀的人交流

小程序 | 全类别AI学习教程

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

4

相关内容

目标检测

目标检测，也叫目标提取，是一种与计算机视觉和图像处理有关的计算机技术，用于检测数字图像和视频中特定类别的语义对象（例如人，建筑物或汽车）的实例。深入研究的对象检测领域包括面部检测和行人检测。对象检测在计算机视觉的许多领域都有应用，包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

46+阅读 · 2020年4月19日

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

专知会员服务

18+阅读 · 2020年4月9日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

22+阅读 · 2020年4月2日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

23+阅读 · 2020年3月31日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

182+阅读 · 2020年2月22日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

54+阅读 · 2020年2月18日

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

专知会员服务

31+阅读 · 2020年2月15日

【论文】自训练噪声student模型提高ImageNet分类准确率（Self-training with Noisy Student improves ImageNet classification），谷歌研究科学家Quoc V. Le等

【论文】自训练噪声student模型提高ImageNet分类准确率（Self-training with Noisy Student improves ImageNet classification），谷歌研究科学家Quoc V. Le等

专知会员服务

23+阅读 · 2019年11月20日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南

专知会员服务

56+阅读 · 2019年10月20日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

16+阅读 · 2019年10月18日

刷新ImageNet纪录，GAN不只会造假！DeepMind用它做图像分类，秒杀职业分类AI

刷新ImageNet纪录，GAN不只会造假！DeepMind用它做图像分类，秒杀职业分类AI

量子位

8+阅读 · 2019年7月9日

已删除

将门创投

12+阅读 · 2019年7月1日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

AI研习社

6+阅读 · 2019年4月24日

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

雷锋网

7+阅读 · 2019年4月24日

谷歌“史上最强GAN”，现在有了PyTorch预训练版，可直接玩耍 | 代码

谷歌“史上最强GAN”，现在有了PyTorch预训练版，可直接玩耍 | 代码

量子位

16+阅读 · 2019年3月22日

158万张图像的鉴黄数据集

158万张图像的鉴黄数据集

机器学习算法与Python学习

15+阅读 · 2019年2月14日

Facebook开源看图问答模型Pythia：拿下VQA比赛冠军就靠它

Facebook开源看图问答模型Pythia：拿下VQA比赛冠军就靠它

量子位

5+阅读 · 2018年7月29日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

谷歌放大招！数据增强实现自动化

谷歌放大招！数据增强实现自动化

新智元

8+阅读 · 2018年6月4日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

FoveaBox: Beyond Anchor-based Object Detector

Arxiv

5+阅读 · 2019年4月8日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Arxiv

4+阅读 · 2018年9月25日

Combining Pyramid Pooling and Attention Mechanism for Pelvic MR Image Semantic Segmentaion

Combining Pyramid Pooling and Attention Mechanism for Pelvic MR Image Semantic Segmentaion

Arxiv

8+阅读 · 2018年6月28日

Learning to Sketch with Shortcut Cycle Consistency

Arxiv

5+阅读 · 2018年5月1日

Mask-aware Photorealistic Face Attribute Manipulation

Arxiv

5+阅读 · 2018年4月24日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

Arxiv

7+阅读 · 2018年1月24日

VIP会员

相关主题

相关VIP内容

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

46+阅读 · 2020年4月19日

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

专知会员服务

18+阅读 · 2020年4月9日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

22+阅读 · 2020年4月2日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

23+阅读 · 2020年3月31日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

182+阅读 · 2020年2月22日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

54+阅读 · 2020年2月18日

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

专知会员服务

31+阅读 · 2020年2月15日

【论文】自训练噪声student模型提高ImageNet分类准确率（Self-training with Noisy Student improves ImageNet classification），谷歌研究科学家Quoc V. Le等

【论文】自训练噪声student模型提高ImageNet分类准确率（Self-training with Noisy Student improves ImageNet classification），谷歌研究科学家Quoc V. Le等

专知会员服务

23+阅读 · 2019年11月20日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南

专知会员服务

56+阅读 · 2019年10月20日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

16+阅读 · 2019年10月18日

热门VIP内容

相关资讯

刷新ImageNet纪录，GAN不只会造假！DeepMind用它做图像分类，秒杀职业分类AI

刷新ImageNet纪录，GAN不只会造假！DeepMind用它做图像分类，秒杀职业分类AI

量子位

8+阅读 · 2019年7月9日

已删除

将门创投

12+阅读 · 2019年7月1日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

AI研习社

6+阅读 · 2019年4月24日

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

雷锋网

7+阅读 · 2019年4月24日

谷歌“史上最强GAN”，现在有了PyTorch预训练版，可直接玩耍 | 代码

谷歌“史上最强GAN”，现在有了PyTorch预训练版，可直接玩耍 | 代码

量子位

16+阅读 · 2019年3月22日

158万张图像的鉴黄数据集

158万张图像的鉴黄数据集

机器学习算法与Python学习

15+阅读 · 2019年2月14日

Facebook开源看图问答模型Pythia：拿下VQA比赛冠军就靠它

Facebook开源看图问答模型Pythia：拿下VQA比赛冠军就靠它

量子位

5+阅读 · 2018年7月29日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

谷歌放大招！数据增强实现自动化

谷歌放大招！数据增强实现自动化

新智元

8+阅读 · 2018年6月4日

相关论文

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

FoveaBox: Beyond Anchor-based Object Detector

Arxiv

5+阅读 · 2019年4月8日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Arxiv

4+阅读 · 2018年9月25日

Combining Pyramid Pooling and Attention Mechanism for Pelvic MR Image Semantic Segmentaion

Combining Pyramid Pooling and Attention Mechanism for Pelvic MR Image Semantic Segmentaion

Arxiv

8+阅读 · 2018年6月28日

Learning to Sketch with Shortcut Cycle Consistency

Arxiv

5+阅读 · 2018年5月1日

Mask-aware Photorealistic Face Attribute Manipulation

Arxiv

5+阅读 · 2018年4月24日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

Arxiv

7+阅读 · 2018年1月24日

大家都在搜

李清照词作

基于大型语言模型

无人地面车辆

精益管理体系

性别年龄戴眼镜识别论文

微信扫码咨询专知VIP会员