High-throughput sequencing has transformed microbiome research, but it also produces inherently compositional data that challenge standard statistical and machine learning methods. In this work, we propose a multinomial classification framework for compositional microbiome data based on penalized log-ratio regression and pairwise separability screening. The method quantifies the discriminative ability of each OTU through the area under the receiver operating characteristic curve ($AUC$) for all pairwise log-ratios and aggregates these values into a global separability index $S_k$, yielding interpretable rankings of taxa together with confidence intervals. We illustrate the approach by reanalyzing the Baxter colorectal adenoma dataset and comparing our results with Greenacre's ordination-based analysis using Correspondence Analysis and Canonical Correspondence Analysis. Our models consistently recover a core subset of taxa previously identified as discriminant, thereby corroborating Greenacre's main findings, while also revealing additional OTUs that become important once demographic covariates are taken into account. In particular, adjustment for age, gender, and diabetes medication improves the precision of the separation index and highlights new, potentially relevant taxa, suggesting that part of the original signal may have been influenced by confounding. Overall, the integration of log-ratio modeling, covariate adjustment, and uncertainty estimation provides a robust and interpretable framework for OTU selection in compositional microbiome data. The proposed method complements existing ordination-based approaches by adding a probabilistic and inferential perspective, strengthening the identification of biologically meaningful microbial signatures.


翻译:高通量测序技术彻底改变了微生物组研究,但其产生的数据本质上是成分数据,这对传统的统计与机器学习方法构成了挑战。本研究提出了一种基于惩罚对数比回归与成对可分离性筛选的微生物组成分数据多项分类框架。该方法通过所有成对对数比受试者工作特征曲线下面积($AUC$)量化每个OTU的判别能力,并将这些值聚合为全局可分离性指数$S_k$,从而得到具有置信区间的可解释分类群排序。我们通过重新分析Baxter结直肠腺瘤数据集,并将结果与Greenacre基于对应分析与典范对应分析的排序分析进行比较,以阐明本方法。我们的模型一致地复现了先前被识别为判别性分类群的核心子集,从而验证了Greenacre的主要发现,同时揭示了在考虑人口统计学协变量后变得重要的额外OTU。特别是,对年龄、性别和糖尿病药物的调整提高了分离指数的精度,并突出了新的潜在相关分类群,表明原始信号的部分可能受到混杂因素的影响。总体而言,对数比建模、协变量调整与不确定性估计的结合,为微生物组成分数据中的OTU选择提供了一个稳健且可解释的框架。所提出的方法通过增加概率与推断视角,补充了现有的基于排序的分析方法,从而加强了对具有生物学意义的微生物特征的识别。

0
下载
关闭预览

相关内容

【ICML2025】生成模型中潜空间的Hessian几何结构
专知会员服务
17+阅读 · 6月15日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员