The missing data issue is ubiquitous in health studies. Variable selection in the presence of both missing covariates and outcomes is an important statistical research topic but has been less studied. Existing literature focuses on parametric regression techniques that provide direct parameter estimates of the regression model. In practice, parametric regression models are often sub-optimal for variable selection because they are susceptible to misspecification. Machine learning methods considerably weaken the parametric assumptions and increase modeling flexibility, but do not provide as naturally defined variable importance measure as the covariate effect native to parametric models. We investigate a general variable selection approach when both the covariates and outcomes can be missing at random and have general missing data patterns. This approach exploits the flexibility of machine learning modeling techniques and bootstrap imputation, which is amenable to nonparametric methods in which the covariate effects are not directly available. We conduct expansive simulations investigating the practical operating characteristics of the proposed variable selection approach, when combined with four tree-based machine learning methods, XGBoost, Random Forests, Bayesian Additive Regression Trees (BART) and Conditional Random Forests, and two commonly used parametric methods, lasso and backward stepwise selection. Numeric results show XGBoost and BART have the overall best performance across various settings. Guidance for choosing methods appropriate to the structure of the analysis data at hand are discussed. We further demonstrate the methods via a case study of risk factors for 3-year incidence of metabolic syndrome with data from the Study of Women's Health Across the Nation.


翻译:缺少的数据问题在健康研究中无处不在。 缺少的共变和结果存在时的变量选择是一个重要的统计研究主题,但研究较少。 现有文献侧重于提供回归模型直接参数估计的参数回归技术。 在实践中, 参数回归模型往往为变量选择的亚优,因为它们容易被误分化。 机器学习方法大大削弱了参数假设,提高了模型灵活性,但没有像原始的参数模型一样提供自然定义的变量重要性计量。 当任意丢失的共变和结果和结果时,我们调查一般的变量选择方法,而结果则具有一般缺失的数据模式。 这种方法利用机器学习模型技术和靴套装图断的灵活度, 因为它容易出现非参数选择差异效应的不优化方法。 我们进行广泛的模拟, 调查拟议变量选择方法的实际操作特点, 与四个基于树的机器学习方法、 XGBoest、 随机森林、 巴伊亚的递增缩缩缩缩略图(BARTART) 和Condalalalal-deal-deal road road roisal resisal resual resm roup resm roup resm roup roup resm resm resm resm resm resm resm resm resm resm resmal roup resm resm 和 roup roup routus roup ass roup ress resm resm ress ress ress roupal ress ress ress ress ress ress ress res res res res res res res res ress ress res ress roup restiction res ress ass ass ass ass res ress ass ass ass ass ass ress ass rocuction ass ress ass ass ass ass ass ass ass ass ass ass ass ass ass ass ress ress ress 和 resmal resmal roupal ress 和 和 ress res

0
下载
关闭预览

相关内容

机器学习(Machine Learning)是一个研究计算学习方法的国际论坛。该杂志发表文章,报告广泛的学习方法应用于各种学习问题的实质性结果。该杂志的特色论文描述研究的问题和方法,应用研究和研究方法的问题。有关学习问题或方法的论文通过实证研究、理论分析或与心理现象的比较提供了坚实的支持。应用论文展示了如何应用学习方法来解决重要的应用问题。研究方法论文改进了机器学习的研究方法。所有的论文都以其他研究人员可以验证或复制的方式描述了支持证据。论文还详细说明了学习的组成部分,并讨论了关于知识表示和性能任务的假设。 官网地址:http://dblp.uni-trier.de/db/journals/ml/
【干货书】机器学习速查手册,135页pdf
专知会员服务
121+阅读 · 2020年11月20日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
专知会员服务
112+阅读 · 2019年12月24日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
143+阅读 · 2019年10月12日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
已删除
将门创投
5+阅读 · 2019年10月29日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
19+阅读 · 2017年10月1日
Arxiv
0+阅读 · 2021年6月1日
Arxiv
0+阅读 · 2021年5月28日
Arxiv
14+阅读 · 2020年12月17日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
18+阅读 · 2019年1月16日
VIP会员
相关VIP内容
【干货书】机器学习速查手册,135页pdf
专知会员服务
121+阅读 · 2020年11月20日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
专知会员服务
112+阅读 · 2019年12月24日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
143+阅读 · 2019年10月12日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
相关资讯
已删除
将门创投
5+阅读 · 2019年10月29日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
19+阅读 · 2017年10月1日
Top
微信扫码咨询专知VIP会员