Feature selection is an essential step in data science pipelines to reduce the complexity of models trained on large datasets. While a major part of feature selection research focuses on optimizing predictive performance, there are only few studies that investigate the integration of feature selection stability into the feature selection process. Taking advantage of feature selection stability has the potential to enhance interpretability of machine learning models whilst maintaining predictive performance. In this study we present the RENT feature selector for binary classification and regression problems. The proposed methodology is based on an ensemble of elastic net regularized models, trained on unique subsets of the dataset. RENT selects features based on three criteria evaluating the weight distributions of features across all elementary models. Compared to conventional approaches, RENT simultaneously performs high-quality feature selection while gathering useful information for model interpretation. In addition, the proposed ensemble-based selection criteria guarantee robustness of the model by selecting features with high stability. In an experimental evaluation, we compare feature selection quality on eight multivariate datasets: six for binary classification and two for regression. We benchmark RENT against six established feature selectors. In terms of both, number of features selected and predictive performance, RENT delivers on-par results with the best performing competitors. The additional information on stability provided by RENT can be integrated in an exploratory post-hoc analysis for further insight as demonstrated in a use-case from the healthcare domain.


翻译:特征选择选择是数据科学管道的一个必要步骤,目的是降低在大型数据集方面受过培训的模型的复杂性。特征选择研究的主要部分侧重于优化预测性能,但调查将特征选择稳定性纳入特征选择过程的研究很少。利用特征选择稳定性的优势,有可能提高机器学习模型的解释性,同时保持预测性能。在本研究中,我们介绍了用于二进制分类和回归问题的 RENT 特征选择器。拟议方法基于弹性网常规化模型的组合,该模型以数据集的独特子集为培训。根据评估所有基本模型特征重量分布的三项标准选择特征。与常规方法相比,RENT同时进行高质量的特征选择,同时收集用于模型解释的有用信息。此外,拟议的基于元素选择标准通过选择高度稳定的特征来保证模型的稳健性。在试验性评估中,我们比较八个多变式数据集的特征选择质量:6个用于二进制分类,2个用于回归。我们用RENT与六个既定的特征选择器对照了所有基本模型的重量分布情况。与常规方法相比,RENT同时进行高质量的选择,在预测中,同时提供所选的稳定性最佳的预测性结果。通过测试提供最佳的业绩结果。

0
下载
关闭预览

相关内容

特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。
【Google】梯度下降,48页ppt
专知会员服务
79+阅读 · 2020年12月5日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
105+阅读 · 2020年5月3日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
已删除
将门创投
6+阅读 · 2019年9月3日
Spatial Group-wise Enhance算法详解
人工智能前沿讲习班
8+阅读 · 2019年6月13日
CCF推荐 | 国际会议信息10条
Call4Papers
7+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
Arxiv
0+阅读 · 2021年4月15日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
VIP会员
相关资讯
已删除
将门创投
6+阅读 · 2019年9月3日
Spatial Group-wise Enhance算法详解
人工智能前沿讲习班
8+阅读 · 2019年6月13日
CCF推荐 | 国际会议信息10条
Call4Papers
7+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
Top
微信扫码咨询专知VIP会员