生物医学发现是医学与医疗保健进步的基石,然而,其推进速度受限于人类研究者有限的认知带宽以及现代实验流程的高度复杂性。
生成与验证新假设的过程需要整合多样的数据模态、在异构实验设计中进行探索,并反复执行耗时的重复性任务。本文探讨人工智能是否能够充当一名“虚拟AI生物学家”——一种能够在大规模上实现生物医学发现端到端自动化的系统。我将这一愿景称为 “发现自动化”(discovery automation)。 我将科学发现过程框定为由两个核心阶段构成的循环:(1)假设生成(hypothesis generation) 与(2)假设验证(hypothesis validation)。 在第一部分(Part I),我提出了面向知识驱动的假设生成的AI方法,其中包括 KGWAS ——一种将全基因组关联分析(GWAS)与大规模功能基因组学知识图谱相结合的方法,用以提升在样本量不足群体中的发现能力;以及 TxGNN ——一种用于大规模药物再利用(therapeutic repurposing)的多模态图神经网络。 在第二部分(Part II),我提出了用于计算机模拟(in silico)假设验证的严格统计框架,包括将保形预测(conformal prediction)扩展至图结构数据的 CF-GNN,以及一种用于基于有效e-value进行连续假设证伪(sequential hypothesis falsification)的智能体框架 Popper。 在第三部分(Part III),我设计了支持智能实验设计(intelligent experimental design)的AI系统,包括 GEARS ——一种推荐高价值基因扰动(genetic perturbations)的系统,以及 IterPert ——一种通过主动学习(active learning)实现闭环序列实验选择(closed-loop sequential experiment selection)的算法。 在第四部分(Part IV),我介绍了 Biomni ——首个通用型生物医学研究AI智能体,能够从文献挖掘、数据分析到实验规划与假设检验,协调整个科研工作流。 综上,这些工作为AI驱动的生物医学发现自动化奠定了方法与系统基础。研究结果表明,人工智能能够加速、扩展并系统化科学发现过程,使研究者能够将精力集中于创造性推理与结果解释,而将重复性、机械化与整合性任务交由智能体完成。