Variable selection naturally arises as a useful subject when faced with data with massive predictor space. In addition to the massive dimensionality, the data may be characterized by intra-subject correlation, and cure fraction, which are ubiquitous in longitudinal studies with recurrent events defining the endpoint of interest. However, variable selection methods simultaneously adjusting for intra-subject correlation, and cure fraction are rare. We propose a comprehensive variable selection method for frailty mixture cure models based on penalized least squares approximation via the generalized linear mixed model methodology. The method provides shrinkage estimation and selection of fixed effects in the incidence and the latency submodels, adjusting for intra-subject correlation using a random effect term. The random effect is shared between the incidence and the latency, incorporating a flexible choice of covariance structure, allowing intra-subject correlation to be modeled as either time-invariant or time-varying. Estimation is facilitated by a penalized semiparametric restricted maximum likelihood method using an expectation-maximization algorithm. Two penalty functions, namely the adaptive least absolute shrinkage and selection operator (adaptive lasso), and the smoothly clipped absolute deviation (SCAD) are studied in the proposed method. Simulation studies are considered, benchmarking the method against an oracle procedure to access its finite sample performance. The practical utility of the method is illustrated using data on recurrent events from a breast cancer gene expression study. In the presence of a relatively large predictor space, results show that the method yields plausible interpretability in whole, as opposed to an unpenalized model.


翻译:当面对具有庞大预测变量空间的数据时,变量选择自然成为一个重要的研究课题。除了高维特性外,数据还可能具有主体内相关性和治愈比例的特征,这在以复发事件定义研究终点的纵向研究中普遍存在。然而,能够同时调整主体内相关性和治愈比例的变量选择方法较为罕见。本文基于广义线性混合模型方法,通过惩罚最小二乘近似,提出了一种针对脆弱混合治愈模型的综合变量选择方法。该方法通过对固定效应进行收缩估计和选择,在发生率和潜伏期子模型中利用随机效应项调整主体内相关性。随机效应在发生率和潜伏期子模型之间共享,并采用灵活的协方差结构选择,允许主体内相关性建模为时不变或时变形式。估计过程通过基于期望最大化算法的惩罚半参数限制极大似然方法实现。本研究在提出的方法中探讨了两种惩罚函数:自适应最小绝对收缩与选择算子(自适应lasso)和平滑剪切绝对偏差(SCAD)。通过模拟研究,以Oracle程序为基准评估了该方法的有限样本性能。利用乳腺癌基因表达研究中的复发事件数据展示了该方法的实际效用。在预测变量空间相对较大的情况下,结果表明该方法整体上比非惩罚模型具有更合理的可解释性。

0
下载
关闭预览

相关内容

用于强化学习的扩散模型:基础、分类与发展
专知会员服务
23+阅读 · 10月15日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
【AAAI2022】基于变分信息瓶颈的图结构学习
专知会员服务
20+阅读 · 2021年12月18日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月23日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员