机器学习中,训练集中的数据特征有几百个,但是大多数特征都很稀疏缺失率高达百分之80以上,该怎么处理?

关注者
54
被浏览
35,053
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

从实际经验来说,特征缺失率高的情况下,直接删除或者缺失值填补,一般效果都不大。首先还是需要对稀疏的特征进行对比分析,看看这些特征之间的缺失有无明显规律,可能是因为什么原因造成的?建模不仅仅是训练一个模型,更需要结合数据,探索数据之外的业务自身特征。另外可以用LightGBM输入全部特征(缺失特征用nan表示(不要用其他值表示))进行训练,LightGBM算法里面有个核心操作(互斥特征捆绑,专门用来处理高维稀疏特征),训练之后输出特征重要性,看看哪些缺失特征对于数据有不错的预测能力。挑选有用的特征,看看是否能够进一步加工,以提高模型性能