We present a new algorithmic framework for grouped variable selection that is based on discrete mathematical optimization. While there exist several appealing approaches based on convex relaxations and nonconvex heuristics, we focus on optimal solutions for the $\ell_0$-regularized formulation, a problem that is relatively unexplored due to computational challenges. Our methodology covers both high-dimensional linear regression and nonparametric sparse additive modeling with smooth components. Our algorithmic framework consists of approximate and exact algorithms. The approximate algorithms are based on coordinate descent and local search, with runtimes comparable to popular sparse learning algorithms. Our exact algorithm is based on a standalone branch-and-bound (BnB) framework, which can solve the associated mixed integer programming (MIP) problem to certified optimality. By exploiting the problem structure, our custom BnB algorithm can solve to optimality problem instances with $5 \times 10^6$ features and $10^3$ observations in minutes to hours -- over $1000$ times larger than what is currently possible using state-of-the-art commercial MIP solvers. We also explore statistical properties of the $\ell_0$-based estimators. We demonstrate, theoretically and empirically, that our proposed estimators have an edge over popular group-sparse estimators in terms of statistical performance in various regimes. We provide an open-source implementation of our proposed framework.


翻译:我们为基于离散数学优化的分组变量选择提出了一个新的算法框架。 虽然存在一些基于康韦克斯放松和非康维克斯超光度的吸引性方法,但我们侧重于以美元=0.0美元正规化配方的最佳解决方案,由于计算方面的挑战,这一问题相对没有探讨。我们的方法涵盖高维线回归和非参数性稀释添加模型,并包含平滑的成分。我们的算法框架包括近度和精确算法。近似算法基于协调血统和本地搜索,运行时间与流行的稀释算法相仿。我们精确的算法基于独立分支和约束(BnB)框架,它能够解决相关的混合整流方案(MIP)优化问题。通过利用问题结构,我们的定制的BnB算法可以解决最佳性问题,5美元=6美元特征和每小时10美元的拟议观察。我们提出的开放性算法系统比目前可能使用的最新商业MIP解算法的运行时间要大1 000多倍。我们还探索了我们拟议中以美元为核心的统计学底框架的统计属性。

0
下载
关闭预览

相关内容

专知会员服务
28+阅读 · 2021年8月2日
【硬核书】群论,Group Theory,135页pdf
专知会员服务
118+阅读 · 2020年6月25日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
【电子书推荐】Data Science with Python and Dask
专知会员服务
42+阅读 · 2019年6月1日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
19+阅读 · 2017年10月1日
Arxiv
0+阅读 · 2021年12月13日
Arxiv
0+阅读 · 2021年12月8日
Arxiv
0+阅读 · 2021年12月7日
Arxiv
6+阅读 · 2019年12月30日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
19+阅读 · 2017年10月1日
Top
微信扫码咨询专知VIP会员