机器学习中，分类中可能出现不平衡数据，那么在回归问题中有不平衡数据这一说法吗？

Question

机器学习中，分类中可能出现不平衡数据，那么在回归问题中有不平衡数据这一说法吗？

关注者

55

被浏览

38,758

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 9 个回答

这个问题是普遍存在的，是有影响的，但往往也是“不重要”或者可以修正的。

1 为何普遍存在？机器学习回归问题的目标变量常为连续型随机变量Y，在社会经济领域中，连续随机变量常常服从正态分布，即有少数样本偏离均值，而大量样本落在均值附近，那么这些少数偏离均值的样本是否就是你所说的不均衡？

2 为何有影响？从回归问题的优化目标函数可以看出。如果选用MSE，即估计值与真实值的离差平方和作为优化目标，那么在所有样本等权重的情况下，这次机器学习的目标其实是优先学习好样本量多的部分，因此不平衡会导致模型在样本少的部分拟合与预测能力下降。在统计学中，也就是导致样本少的地方估计置信区间更宽。

3 为何“不重要”，怎么解决，取决于研究所关注的问题。如预测价格等问题，本身回归模型可能更关注某个目标区间内的预测能力，那么目标区间外的样本较少也没有问题；如果是研究的问题就关注于较少发生的情况，那往往会转化为是否发生该问题或者对异常值的研究；如果就是关注的部分有少量的不均衡，可以采用对样本加权的方式平衡样本；如果就是关注的部分有大量的不平衡问题，那么有可能这个问题需要重新建模

发布于 2019-12-07 16:24

查看全部 9 个回答