图(或网络)在生命科学和医学中无处不在,从分子相互作用图、信号转导途径,到科学知识的图表,以及来自人口研究和/或现实世界证据的患者-疾病干预关系。图机器学习(ML)方法的最新进展,如图神经网络(GNN),已经改变了一系列依赖于生物医学网络的问题,传统上依赖于描述性拓扑数据分析。小分子和大分子,没有被建模为图,也看到了一个基于GNN算法,提高了最先进的性能,以学习他们的性质。与其他领域的图ML应用相比,生命科学提供了许多独特的问题和细微差别,从图构造到图级和双图级监督任务。
本教程的目的有两个。首先,它将全面概述生物医学图/网络的类型,潜在的生物和医学问题,以及解决这些问题的图ML算法的应用。其次,它将展示四个具体的生命科学GNN解决方案,并为与会者提供实践经验。这些实践环节将包括: 1) 训练和微调用于原子图小分子性质预测的GNN模型,2)用于残留图的大分子性质和功能预测,3 )基于双图的蛋白质-配体结合亲和力预测,4)组织和生成用于药物发现的新知识,并利用知识图谱进行再利用。本教程还将指导参会者开发Deep Graph library (DGL)软件库的两个扩展,包括DGL-lifesci和DGL- KE,从而启动他们自己的图ML之旅,推动生命科学的研发。
本教程向数据科学研究人员和从业人员介绍了应用于生物医学科学和医疗健康中各种问题的基于图神经网络(GNN)的方法。本教程首先概述了利用GNN实现小分子、大分子和生物医学知识图谱的各种机会。四项实践活动将为参与者提供一系列不同的生物医学问题,特别是如何部署基于GNN的库用于这些应用,导致生物表型预测,相互作用预测,亲和力预测和药物发现。
本教程将分为以下五个部分:
第一节: 生物医学中的图ML概述。本节介绍生物医学科学中常用的不同类型的图,以及如何利用GNN等基于图的机器学习方法。特别地,我们将涵盖单一实体生物医学网络,包括基因调控网络和蛋白质-蛋白质相互作用网络,以及多实体网络,如蛋白质、基因、疾病、症状和药物的知识图谱。本节还介绍了小分子和大分子(如有机化合物和蛋白质)的图表示,它们可以分别建模为原子和残基的独立图。
第二节: 用GNN解释小分子的意义。本节演示如何开发端到端基于图的ML管道,用于分子性质预测。该管道首先涵盖了如何从原子图构建小有机化合物的特征。然后,将介绍使用DGL-lifesci命令行界面的两个用例:1)从头开始训练GNN以进行分子特性预测,2)微调预训练的GNN以进行分子特性预测。
第三节: 用GNN解释大分子的意义。本节演示如何使用GNN来预测包括RNA和蛋白质在内的大分子的性质。我们将涵盖两个实际案例研究:1)使用GCN预测COVID-19 mRNA疫苗降解,2)使用氨基酸残基图上的等变GNN预测蛋白质功能。
第四节: 超越单图,基于双图的蛋白质-配体结合亲和力预测。本节演示一个在一对图之间进行预测的案例研究。蛋白质-配体结合亲和度预测在药物发现早期的候选药物筛选中具有重要意义。我们演示了如何使用PotentialNet来完成这项任务,以及一种新颖的分子数据匿名化程序来保护分子结构的IP。
第五节:组织和生成新的知识,用于药物发现和利用知识图谱(KGs)。本节展示了图在生命科学中的另一个应用,它使用大规模的KGs来组织来自不同医疗来源的信息,并对这些KGs进行预测。我们将回顾构建这类医学知识图谱的三种方法:1)挖掘医学文献和出版物;2)处理和拼接来自不同医学数据库的不同知识图谱;3)将关系数据库转换为知识图谱。我们将回顾展示如何使用知识图谱和图形ML来对知识图谱进行预测的笔记本,并解释完成知识图谱的常见目标。