Due to the increasing need to handle the noisy label problem in a massive dataset, learning with noisy labels has received much attention in recent years. As a promising approach, there have been recent studies to select clean training data by finding small-loss instances before a deep neural network overfits the noisy-label data. However, it is challenging to prevent overfitting. In this paper, we propose a novel noisy-label detection algorithm by employing the property of overfitting on individual data points. To this end, we present two novel criteria that statistically measure how much each training sample abnormally affects the model and clean validation data. Using the criteria, our iterative algorithm removes noisy-label samples and retrains the model alternately until no further performance improvement is made. In experiments on multiple benchmark datasets, we demonstrate the validity of our algorithm and show that our algorithm outperforms the state-of-the-art methods when the exact noise rates are not given. Furthermore, we show that our method can not only be expanded to a real-world video dataset but also can be viewed as a regularization method to solve problems caused by overfitting.


翻译:由于越来越需要在一个庞大的数据集中处理噪音标签问题,近年来对噪音标签的学习引起了人们的极大关注。作为一种很有希望的方法,最近进行了一些研究,通过在深神经网络覆盖噪音标签数据之前找到小损失案例来选择清洁的培训数据。然而,要防止过度配制是十分困难的。在本文中,我们建议采用新的噪音标签检测算法,在单个数据点上使用过度装配的特性。为此,我们提出了两个新的标准,在统计上衡量每个训练样本对模型和清洁验证数据的影响程度异常。使用这些标准,我们的迭代算法去除噪音标签样本,并在没有进一步改进性能之前,轮流对模型进行重复。在多个基准数据集的实验中,我们展示了我们的算法的有效性,并表明我们的算法在没有给出确切的噪音率时,超越了最新的方法。此外,我们表明我们的方法不仅可以扩大到真实世界的录像数据集,还可以被视为一种正规化的方法,以解决过分配配制造成的问题。

0
下载
关闭预览

相关内容

过拟合,在AI领域多指机器学习得到模型太过复杂,导致在训练集上表现很好,然而在测试集上却不尽人意。过拟合(over-fitting)也称为过学习,它的直观表现是算法在训练集上表现好,但在测试集上表现不好,泛化性能差。过拟合是在模型参数拟合过程中由于训练数据包含抽样误差,在训练时复杂的模型将抽样误差也进行了拟合导致的。
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
86+阅读 · 2020年12月2日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
已删除
将门创投
4+阅读 · 2019年11月8日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Arxiv
1+阅读 · 2021年8月12日
Arxiv
12+阅读 · 2019年4月9日
Arxiv
7+阅读 · 2018年12月5日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
6+阅读 · 2018年3月19日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年11月8日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
相关论文
Arxiv
1+阅读 · 2021年8月12日
Arxiv
12+阅读 · 2019年4月9日
Arxiv
7+阅读 · 2018年12月5日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
6+阅读 · 2018年3月19日
Top
微信扫码咨询专知VIP会员