机器学习中，训练集中的数据特征有几百个，但是大多数特征都很稀疏缺失率高达百分之80以上，该怎么处理?

Question

机器学习中，训练集中的数据特征有几百个，但是大多数特征都很稀疏缺失率高达百分之80以上，该怎么处理?

关注者

54

被浏览

35,053

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 13 个回答

从实际经验来说，特征缺失率高的情况下，直接删除或者缺失值填补，一般效果都不大。首先还是需要对稀疏的特征进行对比分析，看看这些特征之间的缺失有无明显规律，可能是因为什么原因造成的？建模不仅仅是训练一个模型，更需要结合数据，探索数据之外的业务自身特征。另外可以用LightGBM输入全部特征（缺失特征用nan表示(不要用其他值表示)）进行训练，LightGBM算法里面有个核心操作（互斥特征捆绑，专门用来处理高维稀疏特征），训练之后输出特征重要性，看看哪些缺失特征对于数据有不错的预测能力。挑选有用的特征，看看是否能够进一步加工，以提高模型性能

发布于 2021-03-08 14:48

查看全部 13 个回答