Tree ensembles distribute feature importance evenly amongst groups of correlated features. The average feature ranking of the correlated group is suppressed, which reduces interpretability and complicates feature selection. In this paper we present ControlBurn, a feature selection algorithm that uses a weighted LASSO-based feature selection method to prune unnecessary features from tree ensembles, just as low-intensity fire reduces overgrown vegetation. Like the linear LASSO, ControlBurn assigns all the feature importance of a correlated group of features to a single feature. Moreover, the algorithm is efficient and only requires a single training iteration to run, unlike iterative wrapper-based feature selection methods. We show that ControlBurn performs substantially better than feature selection methods with comparable computational costs on datasets with correlated features.


翻译:树群分布在相关特性组中具有同等重要性。 关联组的平均特征排序被抑制, 这会降低可解释性并使特征选择复杂化。 在本文中, 我们展示了“ 控制布鲁恩 ” ( ControlBurn), 这是一种基于 LASSO 的特性选择算法, 使用基于 LASSO 的加权特征选择方法来从树群中提取不必要的特性, 正如低强度火灾减少过度生长的植被一样。 与线性 LASSO 一样, Control 将相关特征组的所有特征都指定为单一特征组。 此外, 算法非常有效, 只需要使用单一的培训性转接操作, 不同于基于迭接包装的特征选择方法。 我们显示, “ 控制布鲁恩” 运行的特性选择方法比特征选择方法要好得多, 具有可比的计算成本, 与相关特性组的数据集。

0
下载
关闭预览

相关内容

特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。
【经典书】线性代数元素,197页pdf
专知会员服务
55+阅读 · 2021年3月4日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
RF(随机森林)、GBDT、XGBoost面试级整理
数据挖掘入门与实战
6+阅读 · 2018年2月6日
算法|随机森林(Random Forest)
全球人工智能
3+阅读 · 2018年1月8日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Arxiv
5+阅读 · 2021年1月7日
Arxiv
7+阅读 · 2020年10月9日
SepNE: Bringing Separability to Network Embedding
Arxiv
3+阅读 · 2019年2月26日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关VIP内容
【经典书】线性代数元素,197页pdf
专知会员服务
55+阅读 · 2021年3月4日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
RF(随机森林)、GBDT、XGBoost面试级整理
数据挖掘入门与实战
6+阅读 · 2018年2月6日
算法|随机森林(Random Forest)
全球人工智能
3+阅读 · 2018年1月8日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Top
微信扫码咨询专知VIP会员