谷歌推出新型数据增强算法：AutoAugment

2018 年 6 月 6 日 论智

来源：Google AI

编译：Bot

编者按：对于机器学习和深度学习，模型性能是和数据量直接挂钩的。数据增强是一种常见的用来提高模型性能的方法，它能对现有的图像、参数等添加扰动，如裁剪、缩放、改变颜色，使它们成为新图像、新参数，大大弥补了由过小数据集带来的模型性能受限问题。近日，Google提出了一种廉价的数据增强工具AutoAugment，用强化学习提高数据的数量和多样性，可以改善深度学习效果。

以下内容来自Google科学家Ekin Dogus Cubuk和Barret Zoph。

近年来，深度学习在计算机视觉中领域取得了极大成功，这离不开社区贡献的大量带标签的训练数据——随着数据的数量、质量和多样性不断提高，模型的性能也会越来越好。但是这些数据还是杯水车薪，在实际操作中，研究人员们往往没法获得足够质量过硬的数据，因此训练过程也十分困难。

解决这个问题的方法之一是通过平移从已有数据中创造出一批“新数据”，另一种方法则是让专家手动设计数据增强方法，如翻转、旋转等方法，并从中训练出性能良好的视觉模型。然而，近年来研究人员对利用机器学习实现数据增强自动化的关注却越来越少。

今年1月，Google Cloud首席科学家李飞飞及研发负责人李佳共同发布了AutoML，这是个可以自动设计神经网络架构和优化方法的工具，用户只需输入原始资料就能建立起符合自身需求的预测模型。受此启发，Ekin Dogus Cubuk和Barret Zoph开始问自己：我们是否也能实现数据增强的自动化？

在AutoAugment: Learning Augmentation Policies from Data这篇论文中，他们引入强化学习思想，增加了已有数据集的数据量和多样性。直观地说，即数据增强的直接目的是在控制模型复杂度的同时增加优质训练数据量，让模型能从中把握图像特征的不变性，在噪声中保持预测结果稳定，从而提高性能。而AutoAugment的独特之处是它一改以往手动设计增强策略，只用强化学习就能从数据本身找出最佳图像增强策略。既提高了训练效果，又帮助研究人员免除了寻找、制作数据集的烦恼，可谓一石二鸟。

增加训练数据

数据增强背后的想法很简单：图像对对称的包容性很高，对称后图像现有信息不会发生变化。比如狗的镜像图像还是一只狗。虽然这个例子中的“不变性”在人类看来是显而易见的，但现实中还存在许多人眼无法看到的“不变性”，如张宏毅和FAIR研究员提出的数据增强方法mixup。

左：来自ImageNet数据集的原始图像；右：镜像后的相同图像（数据增强）

AutoAugment能为计算机视觉数据集自动设计图像增强策略，它包含水平/垂直翻转、旋转、改变颜色等常规方法，但仅有这些是不够的。如果数据集里有一万张图，它只是像流水线工人一样水平翻转了1万张图，或是把颜色转换成黑白，这些新数据对模型训练来说是无用的。AutoAugment的实用之处在于它既能预测图像将要采用的图像增强方法，又能预测每种增强方法的使用占比和图像大小。它是在2.9×10³²的搜索空间中寻找最佳策略。

对于不同数据集，AutoAugment的适用性也十分优秀，比如街景照片中包含房屋门牌号的图像（SVHN）。这是一些包含数字的自然场景图像，经常失真，而且全球各地的门牌制作材料、外形设计也各有不同，如果要由人手动设计数据增强策略，这会是项大工程。AutoAugment处理这些门牌的方法是裁剪和平移等几何变换，经过反复调整，现在它已经学会完全反转原始SVHN数据集中的门牌颜色。

左：来自SVHN数据集的原始图像；右：由AutoAugment转换的相同图像（AutoAugment认为裁剪+变色是最佳增强策略）

而在CIFAR-10和ImageNet这两个经典数据集上，AutoAugment不再使用裁剪，因为这些数据集通常不包含需要裁剪目标对象的图像，也不需要完全改变原始颜色，相反地，如果擅用这两种增强方法，最后生成的图像反而会因为不切实际降低模型性能。因此AutoAugment的重点是稍微调整颜色和色调分布，同时保留普通的颜色属性。这也从侧面表明CIFAR-10和ImageNet更看重实际颜色，而SVHN数据集更关注相对色彩。

左：来自ImageNet数据集的原始图像；右：由AutoAugment转换的相同图像（对比度+旋转）

结果

论文最后，研究人员在CIFAR10做了实验，发现用AutoAugment进行数据增强后，模型性能有所提升，以83.54％的准确率位列对照组榜首；同时，它也降低了错误率，仅有1.48％，比专家手动设计的数据增强方法好了0.83％。在SVHN上，AutoAugment帮助模型把错误率从1.30%降低到了1.02%。更重要的是，这个自动数据增强算法的结果是可推广的，它为ImageNet数据集找到的增强策略同样可以应用于其他计算机视觉数据集，如Stanford Cars、FGVC-Aircraft等，并都改善了模型性能。