Datasets often contain biases which unfairly disadvantage certain groups, and classifiers trained on such datasets can inherit these biases. In this paper, we provide a mathematical formulation of how this bias can arise. We do so by assuming the existence of underlying, unknown, and unbiased labels which are overwritten by an agent who intends to provide accurate labels but may have biases against certain groups. Despite the fact that we only observe the biased labels, we are able to show that the bias may nevertheless be corrected by re-weighting the data points without changing the labels. We show, with theoretical guarantees, that training on the re-weighted dataset corresponds to training on the unobserved but unbiased labels, thus leading to an unbiased machine learning classifier. Our procedure is fast and robust and can be used with virtually any learning algorithm. We evaluate on a number of standard machine learning fairness datasets and a variety of fairness notions, finding that our method outperforms standard approaches in achieving fair classification.


翻译:数据集往往含有不公平地使某些群体处于不利地位的偏差, 而接受过此类数据集培训的分类人员可以继承这些偏差。 在本文中,我们提供了一种数学公式,说明这种偏差是如何产生的。我们假设存在基础、未知和不偏倚的标签,而这些标签被一个有意提供准确标签但对某些群体可能有偏差的代理人所覆盖。尽管我们只看到偏差标签,但我们能够表明,这种偏差仍然可以通过在不改变标签的情况下对数据点进行重新加权来纠正。我们以理论保证的方式表明,关于重新加权数据集的培训与关于未观测到但不带偏见的标签的培训相对应,从而导致一个公正的机器分类师学习。我们的程序是快速和稳健的,可以用几乎所有的学习算法来使用。我们评估了一些标准机器学习公平数据集和各种公平概念,发现我们的方法不符合实现公平分类的标准方法。

0
下载
关闭预览

相关内容

【干货书】真实机器学习,264页pdf,Real-World Machine Learning
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
159+阅读 · 2020年3月18日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
142+阅读 · 2019年10月27日
机器学习入门的经验与建议
专知会员服务
89+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
15+阅读 · 2018年4月3日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Top
微信扫码咨询专知VIP会员