在基因组学研究中,通常会进行成千上万次的统计假设检验,以识别受疾病因果影响的基因。近年来,单细胞RNA测序和CRISPR技术的进展使得基因表达可以被高分辨率地测量。然而,这些数据往往是稀疏的、过度离散的,并且具有异质性,这对多个因果效应的可靠推断带来了重大挑战。 本论文提出了三种互补的解决方案: (1) GCATE 是一个统一的建模框架,适用于具有潜在混杂因素的广义线性模型。通过利用正交结构与线性投影,GCATE 能够在非线性模型下一致地估计和推断直接效应。在样本量和响应变量维度同时趋于无穷的高维情形下,我们推导了渐近 z 检验的一类错误控制,并实证展示了Benjamini-Hochberg程序的虚假发现率控制能力。通过比较两个样本组的单细胞RNA-seq 计数,验证了当显著协变量缺失时调整混杂效应的适用性。 (2) causarray 将来自 GCATE 的混杂因子估计与一个用于多个导出结果的半参数框架相结合。该方法超越了平均处理效应的估计,支持稳健因果估计量,并允许利用机器学习进行灵活建模。由此构建的双重稳健推理流程可以维持 FDR 或 FDX 控制。在自闭症风险基因的 in vivo Perturb-seq 筛选实验和三个阿尔茨海默症转录组数据集上的应用表明,该方法揭示了与疾病相关的神经通路聚类结构。 (3) PII 提供了一种假设依赖性较低的后整合推断方法,利用负控制结果调整潜在异质性。所得的双重稳健估计量在较弱条件下实现一致性与高效性,使得在整合机器学习后可进行数据自适应的因果推断。我们通过随机森林仿真评估其经验性能,并进一步在具有潜在未观测混杂因素的单细胞CRISPR数据集中进行了验证。 总体而言,这些方法构成了一套严谨的因果推理工具包,适用于复杂的基因组环境,能够应对非高斯性、异质性、高维性和未观测混杂问题,从而实现与疾病相关基因和通路的可靠发现。