Label Smoothing分析

2020 年 11 月 21 日 CVer

点击上方“CVer”,选择加"星标"置顶

重磅干货,第一时间送达

本文者:王峰  |  编辑:Amusi

https://zhuanlan.zhihu.com/p/302843504

本文已由原作者授权,不得擅自二次转载

有挺多人问过我一个问题:Label Smoothing在图像识别中能稳定涨点,在人脸的loss里加上Label Smoothing是否有用呢?

我挺早之前就注意到了这件事,当时也做了实验,发现直接应用在人脸相关的loss上,是掉点的。其实DL发展到现在,可以说如果你想到了一个非常简单的排列组合式idea,而经过survey没见过别人这么做,那大概率这个方法是不work的...

但这事到这当然不算完,我们得分析一下它为啥不work。

要引出Label Smoothing,首先我们要知道,Softmax Cross Entropy不仅可以做分类任务(目标为one-hot label),还可以做回归任务(目标为soft label)。设网络输出的softmax prob为p,soft label为q,那Softmax Cross Entropy定义为:

而Label Smoothing虽然仍是做分类任务,但其目标q从one-hot label变为soft label了,原来是1的位置变为  ,其他的原来是0的位置变为  ,  通常取0.1。

假设一个6分类任务,之前的  就变成了  ,直观上看,这个目标还是很奇怪的,如果一个样本网络非常确认其类别,给了个0.99的置信度,难道经过Label Smoothing,还要反向优化不成?

这个问题其实在概率层面上是没法解释的,从概率上看,确实会有发生反向优化的情况,但为什么这样可以涨点呢?

看看Hinton组对Label Smoothing的分析文章[1],里面有一张图比较有意思:

熟悉人脸识别loss的人会发现,这个Label Smoothing得到的特征分布,怎么跟人脸loss的效果这么像?竟然都可以起到让每个类别的样本聚拢的效果。

而少数细心的朋友可能会发现这里的玄机:不做Label Smoothing(标注为w/o LS)的feature norm,普遍比做了LS(标注为w/ LS)的要大很多!w/o LS时最大可以达到1.6,而w/ LS时只有0.4。

回顾之前的文章,减小feature norm实际上等效于降低s,较低的s会使softmax prob的最大值降低,如下图所示(来自于https://zhuanlan.zhihu.com/p/52108088 ):

可以看到,在较低的s的作用下,任何一个点,都不可能达到0.9以上的概率。也就是说,我们之前所担心的反向优化问题,实际上根本不会发生!即使优化到最好,也只能接近0.9,而到不了1。

但同时要注意到,Label Smoothing也并不要求p优化到1,而是优化到0.9即可。Softmax Cross Entropy 的loss曲线其实跟sigmoid类似,越靠近1的时候,loss曲线会越平缓:

sigmoid曲线

而在设置了  后,我们只会用到sigmoid曲线上中间的一段,平缓的区域基本上不存在了,样本的移动几乎永不终止,因此特征会比不加LS更加聚拢。

但是在人脸识别的loss里,s通常是固定住的,而且会固定在一个比较大的值上(例如32、64),这样Label Smoothing就无法让s降低来使最大概率降低,于是反向优化在人脸的loss上就成了真的会发生的事情:p>0.9后,loss会把特征往回拉,直至落在p=0.9附近震荡。理论上特征会在类中心周围形成一个环形的分布(我懒得做实验了,有兴趣的朋友可以做一个看看)。

总结一下,Label Smoothing起到的作用实际上是抑制了feature norm,此时softmax prob永远无法达到设定的  ,loss曲面上不再存在平缓区域,处处都有较大的梯度指向各个类中心,所以特征会更加聚拢。而之所以人脸上不work,是因为我们通常会使用固定的s,此时Label Smoothing无法控制feature norm,只能控制角度,就会起到反向优化的作用,因此在人脸loss上加Label Smoothing效果会变差。

参考

  1. ^When Does Label Smoothing Help? https://arxiv.org/pdf/1906.02629.pdf


下载:CVPR /  ECCV 2020开源代码


在CVer公众号后台回复:CVPR2020,即可下载CVPR 2020代码开源的论文合集

在CVer公众号后台回复:ECCV2020,即可下载ECCV 2020代码开源的论文合集


重磅!CVer-论文写作与投稿交流群成立


扫码添加CVer助手,可申请加入CVer-论文写作与投稿 微信交流群,目前已满2400+人,旨在交流顶会(CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等)、顶刊(IJCV/TPAMI/TIP等)、SCI、EI、中文核心等写作与投稿事宜。


同时也可申请加入CVer大群和细分方向技术群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。


一定要备注:研究方向+地点+学校/公司+昵称(如论文写作+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲长按加微信群


▲长按关注CVer公众号

整理不易,请给CVer点赞和在看

登录查看更多
0

相关内容

近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码
专知会员服务
65+阅读 · 2020年10月20日
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
128+阅读 · 2020年5月14日
多任务学习(Multi-task Learning)方法总结
极市平台
6+阅读 · 2020年4月26日
一文搞懂反向传播
机器学习与推荐算法
16+阅读 · 2020年3月12日
深度神经网络中的多任务学习汇总
极市平台
10+阅读 · 2019年9月24日
从最优化的角度看待 Softmax 损失函数
极市平台
30+阅读 · 2019年2月21日
从动力学角度看优化算法:一个更整体的视角
黑龙江大学自然语言处理实验室
7+阅读 · 2019年1月28日
简明条件随机场CRF介绍 | 附带纯Keras实现
PaperWeekly
23+阅读 · 2018年5月22日
再谈变分自编码器VAE:从贝叶斯观点出发
PaperWeekly
13+阅读 · 2018年4月2日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
BranchOut: Regularization for Online Ensemble Tracking with CNN
统计学习与视觉计算组
9+阅读 · 2017年10月7日
Arxiv
6+阅读 · 2019年12月30日
Arxiv
22+阅读 · 2019年11月24日
Arxiv
3+阅读 · 2018年11月14日
VIP会员
相关资讯
多任务学习(Multi-task Learning)方法总结
极市平台
6+阅读 · 2020年4月26日
一文搞懂反向传播
机器学习与推荐算法
16+阅读 · 2020年3月12日
深度神经网络中的多任务学习汇总
极市平台
10+阅读 · 2019年9月24日
从最优化的角度看待 Softmax 损失函数
极市平台
30+阅读 · 2019年2月21日
从动力学角度看优化算法:一个更整体的视角
黑龙江大学自然语言处理实验室
7+阅读 · 2019年1月28日
简明条件随机场CRF介绍 | 附带纯Keras实现
PaperWeekly
23+阅读 · 2018年5月22日
再谈变分自编码器VAE:从贝叶斯观点出发
PaperWeekly
13+阅读 · 2018年4月2日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
BranchOut: Regularization for Online Ensemble Tracking with CNN
统计学习与视觉计算组
9+阅读 · 2017年10月7日
Top
微信扫码咨询专知VIP会员