Basis Pursuit (BP), Basis Pursuit DeNoising (BPDN), and LASSO are popular methods for identifying important predictors in the high-dimensional linear regression model, i.e. when the number of rows of the design matrix X is smaller than the number of columns. By definition, BP uniquely recovers the vector of regression coefficients b if there is no noise and the vector b has the smallest L1 norm among all vectors s such that Xb=Xs (identifiability condition). Furthermore, LASSO can recover the sign of b only under a much stronger irrepresentability condition. Meanwhile, it is known that the model selection properties of LASSO can be improved by hard-thresholding its estimates. This article supports these findings by proving that thresholded LASSO, thresholded BPDN and thresholded BP recover the sign of b in both the noisy and noiseless cases if and only if b is identifiable and large enough. In particular, if X has iid Gaussian entries and the number of predictors grows linearly with the sample size, then these thresholded estimators can recover the sign of b when the signal sparsity is asymptotically below the Donoho-Tanner transition curve. This is in contrast to the regular LASSO, which asymptotically recovers the sign of b only when the signal sparsity tends to 0. Numerical experiments show that the identifiability condition, unlike the irrepresentability condition, does not seem to be affected by the structure of the correlations in the $X$ matrix.


翻译:根据定义,如果没有噪音,BP单能恢复回归系数b的矢量矢量,b矢量b在所有矢量中具有最小的L1标准,例如Xb=X(可识别性条件),LASO只有在无法显示的情况下才能恢复b的标志。此外,LASO在高度线性回归模型中,也就是当设计矩阵X的行数小于列数时,即当设计矩阵XX的行数小于列数时,确定BB的重要预测值的常用方法是流行的。同时,众所周知,如果设计矩阵XSO的行数小于列线性线性回归模型选择值,即当设计矩阵XSO的行数小数小于线性线性回归时,LASSO的模型选择值属性可以通过硬性保存其估计值来改进。根据定义,这篇文章支持这些结果,通过证明LASSO的门槛值、门槛BPN和门槛性 BP,只有在b可识别性和无噪音的情况下,如果X值条目的条目和预测值的矩阵的数值值与样本大小相当,则只能通过直线性递增。

0
下载
关闭预览

相关内容

【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
62+阅读 · 2021年8月20日
专知会员服务
41+阅读 · 2020年12月18日
【Google】梯度下降,48页ppt
专知会员服务
79+阅读 · 2020年12月5日
Google最新《机器学习对偶性》报告,48页ppt
专知会员服务
35+阅读 · 2020年11月29日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
29+阅读 · 2020年4月8日
一文读懂线性回归、岭回归和Lasso回归
CSDN
33+阅读 · 2019年10月13日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【LeetCode 500】关关的刷题日记27 Keyboard Row
专知
3+阅读 · 2017年11月5日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Logistic回归第二弹——Softmax Regression
机器学习深度学习实战原创交流
9+阅读 · 2015年10月29日
Logistic回归第一弹——二项Logistic Regression
机器学习深度学习实战原创交流
3+阅读 · 2015年10月22日
Arxiv
0+阅读 · 2021年10月20日
Arxiv
0+阅读 · 2021年10月17日
VIP会员
相关VIP内容
【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
62+阅读 · 2021年8月20日
专知会员服务
41+阅读 · 2020年12月18日
【Google】梯度下降,48页ppt
专知会员服务
79+阅读 · 2020年12月5日
Google最新《机器学习对偶性》报告,48页ppt
专知会员服务
35+阅读 · 2020年11月29日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
29+阅读 · 2020年4月8日
相关资讯
一文读懂线性回归、岭回归和Lasso回归
CSDN
33+阅读 · 2019年10月13日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【LeetCode 500】关关的刷题日记27 Keyboard Row
专知
3+阅读 · 2017年11月5日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Logistic回归第二弹——Softmax Regression
机器学习深度学习实战原创交流
9+阅读 · 2015年10月29日
Logistic回归第一弹——二项Logistic Regression
机器学习深度学习实战原创交流
3+阅读 · 2015年10月22日
Top
微信扫码咨询专知VIP会员