哈佛大学「生物医学网络表示学习」最新综述论文，44页pdf阐述表示学习在医学中应用

2021 年 4 月 16 日 专知

随着表示学习在提供强大的预测和数据洞察方面取得的显著成功，我们见证了表示学习技术在建模、分析和网络学习方面的快速扩展。生物医学网络是相互作用系统的通用描述，从蛋白质相互作用到疾病网络，一直到医疗保健系统和科学知识。

在本综述论文中，我们提出了一项观察，即长期存在的网络生物学和医学原理(在机器学习研究中经常未被提及)可以为表示学习提供概念基础，解释其目前的成功和局限，并为未来的发展提供信息。我们整合了一系列算法方法，其核心是利用拓扑特征将网络嵌入紧凑的向量空间。我们还提供了可能从算法创新中获益最多的生物医学领域的分类。

表示学习技术在识别复杂特征背后的因果变异、解开单细胞行为及其对健康的影响、用安全有效的药物诊断和治疗疾病等方面正变得至关重要。

https://arxiv.org/abs/2104.04883

引言

网络，或称图表，在生物学和医学中非常普遍，从分子相互作用图到一个人疾病之间的依赖关系，一直到包括社会和健康相互作用的人群。根据网络中编码的信息类型，两个实体之间“交互”的含义可能不同。例如，蛋白质-蛋白质相互作用(PPI)网络中的边缘可以表明实验中测量到的物理相互作用，如酵母双杂交筛选和质谱分析(例如，[148,197]);调节网络中的边缘可以指示通过动态单细胞表达测量的基因之间的因果相互作用(例如，[174]);电子健康记录(EHR)网络中的边缘可以表明在医疗本体中发现的层次关系(例如，[182,190])。从分子到医疗保健系统，网络已经成为代表、学习和推理生物医学系统的主要范式。

生物医学网络上表示学习的案例。捕捉生物医学系统中的交互作用会带来令人困惑的复杂程度，只有通过整体和集成系统的观点才能完全理解[17,28,164]。为此，网络生物学和医学在过去二十年中已经确定了一系列管理生物医学网络的组织原则(例如，[16,86,106,262])。这些原则将网络结构与分子表型、生物学作用、疾病和健康联系起来。我们认为，长期存在的原则——虽然在机器学习研究中经常未被提及——提供了概念基础，可以解释表示学习在生物医学网络建模中的成功(和局限性)，并为该领域的未来发展提供信息。特别是，当对网络中边缘的解释取决于上下文时，相互作用的实体往往比非相互作用的实体更相似。例如，疾病本体的结构是这样的:通过边缘连接的疾病术语往往比不连接的疾病术语更相似。在PPI网络中，相互作用的蛋白质突变常常导致类似的疾病。相反，与同一疾病有关的蛋白质之间相互作用的倾向增加。在细胞网络中，与特定表型相关的成分往往聚集在同一网络邻居。

表示学习实现网络生物学和医学的关键原理。我们假设表示学习可以实现网络生物学和医学的关键原则。这个假设的一个推论是表示学习可以很好地适用于生物医学网络的分析、学习和推理。表示学习的核心是向量空间嵌入的概念。其思想是学习如何将网络中的节点(或更大的图结构)表示为低维空间中的点，该空间的几何结构经过优化，以反映节点之间的交互结构。表示学习通过指定(深度的、非线性的)转换函数，将节点映射到紧凑的向量空间(称为嵌入)中的点，从而形式化了这一思想。这些函数被优化以嵌入输入图，以便在学习空间中执行代数运算反映图的拓扑结构。节点被映射到嵌入点，这样具有相似网络邻域的节点被紧密地嵌入到嵌入空间中。值得注意的是，嵌入空间对于理解生物医学网络(例如，PPI网络)的意义在于空间中点的邻近性(例如，蛋白质嵌入之间的距离)自然地反映了这些点所代表的实体的相似性(例如，蛋白质表型的相似性)，提示嵌入可被认为是网络生物医学关键原理的可微表现。

算法范式(图1)。网络科学和图论技术促进了生物医学的发现，从揭示疾病之间的关系[91,135,159,200]到药物再利用[41,42,96]。进一步的算法创新，如随机游走[40,229,242]、核函数[83]和网络传播[214]，也在从网络中捕获结构和邻域信息以生成下游预测的嵌入信息方面发挥了关键作用。特征工程是生物医学网络上机器学习的另一个常用范例，包括但不限于硬编码网络特征(例如，高阶结构、网络主题、度计数和共同邻居统计)，并将工程特征向量输入预测模型。这种策略虽然强大，但并不能充分利用网络信息，也不能推广到新的网络类型和数据集[255]。

近年来，图表示学习方法已成为生物医学网络深度学习的主要范式。然而，对图的深度学习具有挑战性，因为图包含复杂的拓扑结构，没有固定的节点排序和参考点，它们由许多不同类型的实体(节点)和各种类型的相互关系(边)组成。传统的深度学习方法无法考虑生物医学网络的本质——多样性的结构特性和丰富的交互作用。这是因为经典的深度模型主要是为固定大小的网格(例如，图像和表格数据集)设计的，或者是为文本和序列优化的。因此，它们在计算机视觉、自然语言处理、语音和机器人技术方面取得了非凡的成就。就像对图像和序列的深度学习彻底改变了图像分析和自然语言处理领域一样，图表示学习也将改变生物学和医学中复杂系统的研究。

我们的重点是表示学习，特别是流形学习[27]、图变压器网络[250]、微分几何深度学习[25]、拓扑数据分析(TDA)[34,224]和图神经网络(GNN)[125]。图2描述了这次评审的结构和组织。我们首先提供流行的图学习范式的技术说明，并描述其在加速生物医学研究的关键影响。在图表示学习的每个当前应用领域(图4)，我们展示了图表示学习的潜在方向，可以通过四个独特的前瞻性研究，每个研究至少解决以下图机器学习的关键预测任务之一:节点、边缘、子图和图级预测、连续嵌入和生成。