Dealing with imbalanced data is a prevalent problem while performing classification on the datasets. Many times, this problem contributes to bias while making decisions or implementing policies. Thus, it is vital to understand the factors which cause imbalance in the data (or class imbalance). Such hidden biases and imbalances can lead to data tyranny and a major challenge to a data democracy. In this chapter, two essential statistical elements are resolved: the degree of class imbalance and the complexity of the concept; solving such issues helps in building the foundations of a data democracy. Furthermore, statistical measures which are appropriate in these scenarios are discussed and implemented on a real-life dataset (car insurance claims). In the end, popular data-level methods such as random oversampling, random undersampling, synthetic minority oversampling technique, Tomek link, and others are implemented in Python, and their performance is compared.


翻译:在对数据集进行分类时,处理不平衡的数据是一个普遍的问题。许多时候,这个问题在决策或执行政策时造成偏向性。因此,必须了解造成数据不平衡(或阶级不平衡)的因素。这种隐蔽的偏向和不平衡可能导致数据暴政,对数据民主构成重大挑战。本章解决了两个基本统计要素:阶级不平衡的程度和概念的复杂性;解决这些问题有助于建立数据民主的基础。此外,在现实生活数据集(汽车保险索赔)上讨论和执行这些情景中适当的统计措施。归根结底,流行的数据级方法,如随机过度抽样、随机抽样、合成少数群体抽样技术、托普克联系和其他方法在皮松实施,其性能被比较。

0
下载
关闭预览

相关内容

多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
【实用书】数据科学基础,484页pdf,Foundations of Data Science
专知会员服务
117+阅读 · 2020年5月28日
【边缘智能综述论文】A Survey on Edge Intelligence
专知会员服务
114+阅读 · 2020年3月30日
专知会员服务
53+阅读 · 2020年3月16日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
9+阅读 · 2017年10月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年9月30日
Arxiv
35+阅读 · 2021年8月2日
VIP会员
相关VIP内容
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
【实用书】数据科学基础,484页pdf,Foundations of Data Science
专知会员服务
117+阅读 · 2020年5月28日
【边缘智能综述论文】A Survey on Edge Intelligence
专知会员服务
114+阅读 · 2020年3月30日
专知会员服务
53+阅读 · 2020年3月16日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
9+阅读 · 2017年10月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员