机器学习中,分类中可能出现不平衡数据,那么在回归问题中有不平衡数据这一说法吗?

关注者
55
被浏览
38,758
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

这个问题是普遍存在的,是有影响的,但往往也是“不重要”或者可以修正的。

1 为何普遍存在?机器学习回归问题的目标变量常为连续型随机变量Y,在社会经济领域中,连续随机变量常常服从正态分布,即有少数样本偏离均值,而大量样本落在均值附近,那么这些少数偏离均值的样本是否就是你所说的不均衡?

2 为何有影响?从回归问题的优化目标函数可以看出。如果选用MSE,即估计值与真实值的离差平方和作为优化目标,那么在所有样本等权重的情况下,这次机器学习的目标其实是优先学习好样本量多的部分,因此不平衡会导致模型在样本少的部分拟合与预测能力下降。在统计学中,也就是导致样本少的地方估计置信区间更宽。

3 为何“不重要”,怎么解决,取决于研究所关注的问题。如预测价格等问题,本身回归模型可能更关注某个目标区间内的预测能力,那么目标区间外的样本较少也没有问题;如果是研究的问题就关注于较少发生的情况,那往往会转化为是否发生该问题或者对异常值的研究;如果就是关注的部分有少量的不均衡,可以采用对样本加权的方式平衡样本;如果就是关注的部分有大量的不平衡问题,那么有可能这个问题需要重新建模