【Nature Machine Intelligence】面向复杂系统建模的多模态图学习

导语

图学习（Graph Learning）是一种研究和应用图结构数据的机器学习方法。在图学习中，数据被表征为由节点和边组成的图形，其中节点表示实体或对象，边表示它们之间的关系或连接。因此图学习特别适用于复杂系统的多尺度分析、建模与仿真研究，揭示复杂系统中的模式、规律和动态变化。图学习常用的技术包括图卷积网络、图注意力网络、图神经网络等，这些方法通过在图上进行信息传播和聚合，从而实现对节点和边的特征提取和学习。近年来，随着语音、文本、图像等多种模态的数据大量积累，多模态机器学习和深度学习技术正在快速发展，并在图结构数据中取得了成功。哈佛大学生物信息学的学者在Nature Machine Intelligence发表综述文章，提出了一体化的多模态图学习框架，并从图像处理、自然语言处理和自然科学三个应用领域进行梳理和展望。**************************

研究领域：图学习，多模态，复杂系统，图卷积网络，图神经网络 Yasha Ektefaie, George Dasoulas, Ayush Noori, Maha Farhat & Marinka Zitnik **| 作者刘培源 | 译者

论文题目：Nature Machine Intelligence Multimodal learning with graphs论文地址：https://www.nature.com/articles/s42256-023-00624-6

目录****

一、引言

二、图神经网络用于多模态图学习

三、针对图像的多模态图学习

四、针对语言数据集的多模态图学习

五、多模态图学习应用于科学发现

六、展望****

针对图的人工智能方法，在建模复杂系统方面取得了显著的成功，其应用范围涵盖了生物学中的动态网络到物理学中的相互作用粒子系统。然而，日益异质化的图数据集需要采用多模态方法，以结合不同的归纳偏置（inductive bias）。所谓归纳偏置，在机器学习中指的是学习算法对某些类型假设的偏好或倾向，它帮助算法从给定的训练数据中进行推断。这种偏置可以基于算法设计者的先验知识，也可以是对问题空间结构的一种假设。

在多模态数据集上进行学习具有挑战性，因为归纳偏置可能因数据模态而异，并且图可能并未在输入中明确给出。为了应对这些挑战，图人工智能方法结合不同的模态，通过几何关系来利用跨模态依赖关系。多样化的数据集通过图进行整合，并被送入复杂的多模态架构中，这些架构被定义为图片密集型、知识基础型与语言密集型模型。借助以上分类，我们引入了一种多模态图学习的框架，利用它研究现有方法，并提供设计新模型的指导原则。

一、引言

基于图（Graph）的深度学习技术，在生物学、化学、物理学和社会科学领域取得了突破。图神经网络的主要用途是基于神经消息传递策略，学习包括节点、边、子图和整个图的各种图组件的表征。图神经网络学习到的表征，可用于下游任务，包括通过半监督学习进行标签预测、自监督学习以及图设计和生成。在大多数现有应用中，数据集明确描述了以节点、边和附加信息表示的图，这些信息代表上下文知识，例如节点、边和图的属性。

建模复杂系统需要以不同视角、不同尺度或通过多种模态（如图像、传感器读数、语言序列和简洁的数学陈述）观测相同对象的数据。多模态学习（Multimodal learning）研究如何优化这些异构的复杂观测量，以创建广泛适用、对基础数据分布的变化具有鲁棒性，并能用更少标记数据进行训练的学习系统。虽然多模态学习已经在单模态方法失效的情况下取得成功，但它还面临着在更大范围人工智能场景中应用的挑战。这些挑战包括找到适用于机器学习分析的表征方法，以及融合来自不同模态的组合信息以创建预测模型。这些挑战已被证明是困难的。例如，多模态方法往往只关注在模型训练过程中最有帮助的一部分模态，而忽视了可能具有信息价值的其它模态——该缺陷被称为“模态崩溃”（modality collapse）。此外，与“假设每个对象必须存在于所有模态中”的一般观点相反，由于数据收集和测量技术的限制，在每个模态中都出现的对象集可能很少——该缺陷被称为“缺失模态”（missing modalities）。由于不同的模态可以导致复杂的关系依赖，简单的模态融合无法充分利用多模态数据集。图学习的模型通过将不同模态的数据点连接为最优定义的图中的边，并构建适用于各种任务的学习系统，来对上述数据系统进行建模。

我们在此探讨一种所谓“多模态图学习”（multimodal graph learning，MGL）的技术框架。多模态图学习提供了一个框架，可以涵盖现有算法，并帮助开发利用图进行多模态学习的新方法。该框架允许学习融合后图的表征，并研究如何应对前述的模态崩溃和缺失模态的挑战。我们将多模态图学习框架应用于广泛的领域，从计算机视觉和语言处理到自然科学（图1）。本文考虑将图像密集型图（image-intensive graphs，IIGs）用于图像和视频推理，语言密集型图（language-intensive graphs，LIGs）用于处理自然和生物序列，以及知识密集型图（knowledge-intensive graphs，KIGs）用于辅助科学发现。

图1 以图为中心的多模态学习。左侧显示了不同的数据模态。右侧显示了多模态图学习在机器学习任务中的价值。多模态图学习作为一个统一的框架，通过计算机视觉、自然语言处理和自然科学中的学习系统，实现了多模态图神经架构。

二、图神经网络用于多模态图学习

深度学习已经为多模态学习开创了诸多融合方法。例如，循环神经网络（RNN）与卷积神经网络（CNN）的结构成功地相结合，用于视频描述问题中声音和图像信息的融合。最近，生成模型在语言相关及基于物理的多模态数据上也被证明非常精确。这些模型基于编码器-解码器框架，在编码器中，组合后的架构同时接受训练（每个架构专门用于一种模态），而解码器则从各个架构中聚集信息。当模态之间复杂的关系形成网络结构时，图神经网络（graph neural networks，GNNs）提供了一种富有表现力且灵活的策略，以利用多模态数据集中的相互依赖关系。

图神经网络在多模态学习中的应用颇具吸引力，因其能灵活地建模不同数据类型内部及跨类型的相互作用。然而，通过图学习进行数据融合需要构建网络拓扑，并在图上实施推理算法。我们提出了一种方法论，它根据给定的多模态输入数据，生成可用于下游任务的输出表征，这就是一体化的多模态图学习。多模态图学习框架可以视为由四个相互连接、形成端到端流程的学习组件构成的架构。在图2a和2b中，突出展示了传统单模态架构组合处理多模态数据与我们提出的一体化多模态架构之间的差异。

图2 多模态图学习的架构。a，多模态学习的常规方法是组合不同的单模态架构，每个架构均针对一种特定的数据模态进行优化。b，相较之下，一体化的多模态架构考虑了每种数据模态特有的归纳偏置，并以端到端方式优化模型参数，从而实现表征层面上的数据融合。c，多模态图学习包含四个组件：实体识别、拓扑发现、信息传播和表征混合。这些组件被划分为两个阶段：“结构学习”（structure learning）以及“基于结构的学习”（learning on the structure）。

多模态图学习的前两个组件，即实体识别和拓扑发现，可以归为结构学习阶段（图2c）。

（一）组件一：实体识别

多模态图学习的第一个组件用于识别各种数据模态中的相关实体，并将它们投影到共享的命名空间中。例如，在精准医学中，患者的状态可能通过匹配的病理切片和临床笔记来描述，从而产生具有图像和语言信息的患者节点。在计算机视觉的另一个示例中（图3），实体识别涉及在图像中定义超像素。

图3 将多模态图学习应用于图像领域。a，图像理解中的模态识别，其中节点表示由SLIC（简单线性迭代聚类）分割算法生成的感兴趣区域，又称之为超像素。b，图像降噪中的拓扑发现，其中图像块（节点）与其他非局部相似块相连。c、人-物互动中的拓扑发现，其中创建了两个图。一个以人为中心的图，将身体部位映射到其解剖学上的相邻位置，⽽一个图基于相对于图像中其他物体的距离，互动连接各身体部位。d、人-物互动中的信息传播，其中基于空间关系的图通过修改消息传递，以结合边的特征，从而对齐图像中物体的相对方向。

（二）组件二：拓扑发现

在定义了问题的实体之后，第二个组件开始探索跨模态节点之间的相互作用和相互作用类型。相互作用通常是明确给出的，因此可视为图是预先给定的，该组件负责将已有的图结构与其他模态结构相结合（例如，在图5c中，“拓扑发现”部分对应于将蛋白质表面信息与蛋白质结构本身相结合）。当数据没有预设网络结构时，揭示拓扑组件会基于显式特征（例如，空间和视觉特征）或隐式特征（例如，表示中的相似性）来探索可能的邻接矩阵。对于后一种情况，自然语言处理领域的案例是考虑从表达词之间关系的文本输入来构建图（图4b）。

图4 多模态图学习在语言数据集上的应用。a，文本输入中的不同上下文背景层次，从句子到文档以及每个上下文层次中识别的单个组件。这是多模态图学习框架第一个组件“实体识别”的例子。b，从文本输入构建语言密集图的简化构造，这是多模态图学习框架中“拓扑发现”组件的应用。c和d是“基于领域的情感分析”（ABSA）示例，旨在为给定方面的句子给出情感打分，分为正面、负面或中性。通过在句子内按所在领域分组（c）或对句子和领域之间的关系进行建模（d），这些方法整合了与基于领域的情感分析相关的归纳偏置，并在多模态图学习的第三个组件“信息传递”方面进行了创新。在图被指定或经由自适应优化之后（多模态图学习中的结构学习阶段；图2c），可以使用各种策略来在图上进行学习。最后两个多模态图学习组件，合称为“基于结构的学习”阶段（图2c），描述了这些策略。

（三）组件三：信息传播

第三个组件使用卷积或消息传递，基于图的邻接关系学习节点表征。在多个邻接矩阵的情况下，该方法使用独立的传播模型或假设超图形式，将邻接矩阵与单个传播模型融合。

（四）组件四：混合表征

最后一个组件会根据下游任务的需要，对学习到的节点级别的表征进行转换。信息传播模型会输出节点的表征，这些表征可以根据最终表征层次（例如，图一级或子图一级的标签）进行混合和组合。流行的混合策略包括简单的聚合操作（如求和或平均）或者更为复杂的、含有神经网络架构的函数。图2c展示了所有多模态图学习组件，从多模态输入数据到为下游任务优化的表征。

三、针对图像的多模态图学习

图像密集型图（image intensive graph，IIGs）是一种多模态图，其中的节点代表视觉特征，而边代表图像特征间的空间联系。结构图像学习包括创建图像密集型图，以编码与图像相关的几何先验条件，如平移不变性和尺度分离等。平移不变性描述了卷积神经网络的输出随输入图像位移而无变化的特性，这是通过具有共享权重的卷积滤波器实现的。相反，尺度分离则指出如何分解跨尺度特征间的长距离相互作用，重点关注可以传播至更粗粒度尺度的局部相互作用。例如，在卷积神经网络中，池化层紧接在卷积层后面以实现尺度分离。另外，图神经网络能够模拟对图像相关任务而言至关重要的任意形状的长程依赖性，例如在图像分割、图像恢复或人-物体交互等任务中。

（一）视觉理解

视觉理解仍是视觉分析的核心，而多模态图学习在图像分类、分割和增强等方面已被证实具有显著效用。图像分类的任务是识别出图像中存在的各类对象。相比之下，图像分割则将一幅图像划分为若干部分，并将每个部分归入一个特定类别。最后，图像恢复和去噪则将低质量的图片转化为高清晰度的版本。完成这些任务所需的信息包括对象、片段和图像块，以及它们周围的长程上下文信息。图像密集型图的构建（对应于多模态图学习的组件1和2）起始于简单线性迭代聚类等分割算法，以确定具有意义的区域（如图3a）。这些区域决定了用于抽取特征图和各区域视觉特征概要的节点，其属性由如FCN-16或VGG19等卷积神经网络初始化。此外，节点不仅与其在卷积神经网络学习特征空间中的k个最近邻节点相连（如图3b），也和空间相邻的区域相连，或和基于预先设置的节点间相似性阈值所确定的任意数量的邻居节点相连。一旦完成多模态图学习的结构学习阶段，基于图卷积和图注意力的传播模型（即多模态图学习的组件3）就会根据已学习到的注意力分数，来衡量图中节点邻居的权重。另外，图降噪网络、内部图神经网络以及残差图卷积网络这样的方法会考虑边相似性，以表示出图像区域间的相对距离。

（二）视觉推理

视觉推理的深度超越了单纯识别视觉元素，它通过询问图像中实体间的关系来展开推理。这些关系可能涉及人与物品的相互作用，如人-物交互，或者更广义地，涉及视觉、语义和数字实体的交互，如在视觉问题回答中所见。

在人-物交互中，多模态图学习方法识别出两个实体，即人体部位（如手、脸等）与物体（如冲浪板、自行车等），它们在全连接、二分的图中或在部分连接的拓扑结构中进行交互。而在视觉问答任务中，多模态图学习方法构建了一种新的拓扑结构，该结构涵盖了视觉、语义和数字图之间的互联。这些实体，包括由提取器（如Faster R-CNN）识别出的视觉对象，以及由光学字符识别和数字文本识别出的场景文本。这些实体间的相互作用是基于空间定位来定义的：相互靠近的实体会通过边来连接。

基于上述结构的学习（多模态图学习组件3），区分了在同类型实体间与不同类型实体间传播信息的方式。在人-物交互中，相同种类实体（即，类内神经信息）通过遵循边并应用图注意力定义的转换来交换知识，该转换根据节点潜在向量的相似度对神经信息进行加权。相反，不同类型实体间的信息（即，类间神经信息）则通过图解析神经网络进行传播，其中权重是自适应学习得到的。模型可能具有多个通道，用于推理同类别实体并跨类别共享信息。例如，在人-物交互中，关系解析神经网络使用双通道模型，在最终预测前执行人和物品为中心的消息传递（图3c）。视觉问答任务也采用了相同的策略，其中视觉、语义和数字通道在通过视觉-语义聚合和语义-数字聚合共享信息之前进行独立的消息传递。其他神经架构也可以作为基于图的通道的替代方案。

四、针对语言数据集的多模态图学习

语言模型凭借其生成上下文语言嵌入的能力，已广泛地改变了我们对自然语言的分析方式。然而，除了词汇之外，语言的结构还存在于句子层面（句法树、依存解析）、段落层面（句间关系）以及文档层面（段落间链接）。Transformer这类主流的语言模型，能够捕获此类结构，但它对计算和数据有着严格的需求。多模态图学习方法通过将语言结构融入模型来缓解这些问题。具体来说，这些方法依赖于语言密集型图（language intensive graph，LIGs），在这些显式或隐式的图中，节点代表由语言依赖关系所连接的语义特征。

（一）创建语言密集型图

在最高抽象层次上，语言数据集可以被看作是由一组文档组成的语料库，然后是单个文档、一组句子、一组实体，最后是单个词语（图4a）。多模态图学习可以通过构建语言密集型图来考虑这些不同层次的上下文信息。选择要包含的上下文以及如何创建语言密集型图以表征上下文，取决于特定任务的需求。我们将描述用于文本分类和关系抽取的步骤，因为这些任务是大多数语言分析的基础。在文本分类任务中，模型需要根据词语（标记）的用法和含义，为一段文字赋予相应的标签。词语之间的图结构由它们在文档中的相对位置或者共同出现的关系所决定。关系抽取则寻求在文本中识别词语间的关系，这一能力对于其他语言处理任务（问答、摘要和知识图谱推理等）非常重要。为了捕捉句子的语义，词语实体间的结构基于底层的依赖关系树。除了词语以外，还包括用其他实体来捕捉跨句子的拓扑结构信息（图4a、b）。

（二）学习语言密集型图

一旦语言密集型图构建完成，我们需要设计一个模型，使其能在此图上进行学习，并融入与特定语言任务相关的归纳偏置。我们以“基于领域的情感分析（ABSA）”为例，来揭示如何在语言密集型图上进行学习。基于领域的情感分析是将文本的情绪（正向或负向）关联到某个词、词组或者某个主题上。为了执行基于领域的情感分析任务，模型必须理解句法结构，并探寻文本中主题词与其他词之间的长距离关系。为了在远距离的词之间传递信息，特定领域的图神经网络会在语言密集型图中屏蔽非主题词汇，实现长距离信息传递。它们还对查询词和主题词的潜在表征，进行元素级别相乘（两个矩阵或向量在相同位置的元素相乘，形成新的矩阵或向量）或门控处理（神经网络中控制信息流动的一种机制，以“门”来控制信息被保留或遗忘的程度）。为了让图包含句法结构信息，图神经网络通过类型特定的信息传递来区分依赖树中不同类型的关系（图4c）。对文档进行情感分析时，邻近或相似句子的情感极其重要。合作图注意力网络（cooperative graph attention networks）通过两个基于图模型块——内部和外部模块（图4d）之间的协作来实现这一点。这些模块捕捉了句子与具有相同主题的其他句子的关系（领域内部），以及与文档中含有不同主题的邻近句子的关系（领域外部）。内部和外部模块的输出在交互模块中混合，通过一系列隐藏层进行传递。最后，通过学习得到的注意力权重将每个隐藏层间的中间表示融合，形成最终的句子表示（多模态图学习组件4）。

五、多模态图学习应用于科学发现

除了在计算机视觉和语言建模中的应用，图在自然科学中的应用也越来越多。我们将这些图称为知识密集型图（knowledge intensive graph，KIGs），因为它们融入了与特定任务相关的归纳偏置，或者在其结构中编码了科学知识。 （一）物理学中的多模态图学习

在粒子物理学中，图神经网络已被用于识别导致粒子喷射的源头粒子，这些粒子喷射是由高能粒子碰撞产生并四散飞溅出来的。在这些图中，节点代表粒子，并与其k个最近邻节点相连。多轮消息传递过后，聚合得到的节点表示被用于识别源头粒子。物理启发的图神经网络已经崭露头角，用于模拟由多尺度过程主导的物理系统。传统方法无法胜任这样的任务。一个典型的目标是从现有的实验数据中发现隐藏的物理规律。图神经网络通过利用物理定律从现有的实验数据和信息进行训练，然后在时空域中的特定点上进行评估。这种物理启发式架构将多模态数据与数学模型相结合。例如，图神经网络可以将底层动力学的微分算子表示为节点和边上的函数。图神经网络还可以表示物体之间的物理相互作用，例如流体中的粒子、机器人的关节和电力网络中的节点。初始节点表征描述了这些粒子的初始状态和全局常数，如重力。边表示相对粒子速度。消息传递首先更新边的表征，并计算系统内受力的影响。然后使用更新后的边表征来更新节点表征，并计算粒子受力后的新状态（图5a）。这种消息传递策略推进了“针对图像的多模态图学习”，并且还被用于解决组合算法（Bellman-Ford和Prim算法）和芯片布局，以设计计算机芯片的物理布局。

图5 多模态图学习在自然科学中的应用。a，物理启发的神经消息传递网络，通过粒子间相互作用和其他力更新系统中粒子的状态，在物理相互作用中传播信息。b，分子推断中的信息传播，利用全局注意机制模拟两个分子中原子之间的潜在相互作⽤，以预测两个分子是否会发生反应。c，蛋白质建模中的拓扑结构发现，利用多尺度图表示将蛋白质的⼀级、二级和三级结构与分⼦超像素中的更高层级蛋白质模体相结合，以表示一个蛋白质。这种鲁棒的拓扑结构为蛋白质-配体结合亲和力预测等任务提供了更好的预测能力。

（二）化学中的多模态图学习

在化学中，多模态图学习可以通过对由化学键连接的原子所构成的分子图进行消息传递操作，来预测分子的内部和相互作用性质。目前的研究工作除了考虑二维分子细节外，还将三维空间的分子信息纳入其中。当这些信息不可用时，多模态图学习除了考虑粒状原子表征，还会考虑立体化学特征来聚合神经信息，并将分子建模为化学亚结构的集合。立体异构体是那些具有相同图连通性，但空间排列不同的分子。这意味着，无论原子在三维空间中的取向如何，分子图中的聚合函数都进行相同的聚合。这可能导致性能下降，因为立体异构体可能具有不同的性质。为解决这一问题，研究者提出了置换和置换-连接两种聚集方式。它们通过计算手性群的所有排列的加权和，来更新该群内部每个原子。尽管每种排列中邻居身份相同，但空间排列各异。通过对每种排列进行加权，置换和置换-连接通过修改底层图中信息的传播方式（多模态图学习组件3），成功将这种归纳偏置编码进来。此外，多模态图学习可以帮助确定分子通过反应生成的化学产物。例如，为预测两个分子是否会发生反应，量子化学增强的图神经网络（QM-GNN），使用化学信息的初始表示来表示每个反应物的分子图。经过多轮消息传递后，原子表征通过全局注意力机制得以更新（图5b）。该注意力机制揭示了一种新颖的拓扑结构，在此结构中，原子能与其他分子中的原子进行互动。它融合一个化学原则：粒子间的分子相互作用会影响化学反应本身。最后的表征与如原子电荷和键长等描述符结合，并用于预测。这种方法将图神经网络中关于分子的结构性知识与相关的化学知识整合在一起，使得其能在小型训练数据集上进行准确预测。融合图神经网络输出以包含领域知识，展示了多模态图学习中混合模块的作用。分子图学习为虚拟药物筛选、分子生成与设计以及药物靶点识别创造了新的机会。

**（三）生物学的多模态图学习

不只是针对单个分子，多模态图学习还能助力理解跨多个尺度的复杂结构的特性，其中最相关的就是蛋白质。在氨基酸序列尺度上，标志性任务是从氨基酸序列预测3D结构。AlphaFold构建了一个知识密集型图，节点为源于序列同源性的氨基酸表征。为了在这个图中传播信息，AlphaFold引入了三角乘法更新和三角自注意力更新。这些三角形式的修改整合了归纳偏置，即学习表征必须遵守距离的三角不等式以代表3D结构。多模态图学习等创新使得AlphaFold能从氨基酸序列预测3D蛋白质结构。

除了3D结构之外，蛋白质表面分子在细胞功能和疾病中发挥着关键作用，因此对蛋白质的几何与物理属性进行建模至关重要。例如，MaSIF（一个预测蛋白质相互作用的多模态图模型）通过将分子表面描述为多模态图，来训练一个图神经网络，从而预测蛋白质相互作用。节点的初始表征基于几何和化学特性。接下来，每个节点定义的高斯核（Gaussian kernels，基于数据点相似性、用于处理和编码信息的神经网络函数）用于信息传播，从而编码分子表面复杂的几何形状，并扩展了卷积的概念。最终的表征可以被用于预测蛋白质间相互作用、蛋白质复合物的结构配置以及蛋白质与配体的结合。

六、展望

多模态图学习是一个新兴领域，其应用遍布自然科学、视觉和语言领域。我们预计，全面的多模态图架构及其在自然科学与医学领域的新应用，将推动多模态图学习的发展。同时，我们还概述了在何时多模态图学习会显得价值不大或无用、需要改进以解决由于多模态归纳偏置或明确缺乏图式所引发的挑战等问题。**

（一）全面的多模态图架构

**现行主流方法主要采用针对各类数据模态量身打造的领域专用架构。然而，通用架构的先进性提供了一种表征策略，能够考虑到各模态之间的依赖性，不论它们是以图像、语言序列、图形或是表格数据集的形式呈现。更进一步，多模态图学习架构支持更为复杂的图结构，如超图和异质图。这个架构也为基于图的多模态学习的新应用铺平了道路。例如，知识蒸馏（knowledge distillation）旨在保持性能不变的同时，将知识从一个大型“教师”模型转移到一个较小的“学生”模型，且使用更少的资源。知识密集型图可以用来设计更高效的知识蒸馏损失函数。在另一个案例中，可见神经网络（visible neural network）将架构设定为节点对应于细胞系统不同尺度（如分子、通路）的概念，从小型复合物到广泛的信号通路，基于生物关系进行连接，并用于前向和反向传播。通过整合这样的归纳偏置，模型可以以数据高效方式进行训练，因为它们无需重新发明相关基本原理，而是从一开始就了解这些原理，因此需要更少的训练数据。将算法设计与领域知识相协调也有助于提高模型的可解释性。 （二）全面的多模态图架构

在缺乏先验知识或关系结构的领域，现有方法的应用受到限制。例如，在化学反应预测、喷射流源头粒子分类、物理交互模拟以及蛋白质-配体建模等任务中，任务相关的相互作用并非预先给定，意味着这些方法必须自动捕捉到新颖的、未明确指定的且相关的相互作用。有些应用采用节点特征相似性，在每层之后动态构造局部邻接关系，以发掘新的相互作用。然而，由于信息仅在紧密连接的节点间传递，这种方式无法捕获远距离节点间的新颖相互作用。解决此限制的方法是引入带有诱导稀疏性的注意力层来发现。在没有强关联结构的应用中，如分子属性预测、粒子分类和文本分类，节点特征通常比任何编码结构具有更高的预测价值。因此，其他一些方法已被证实在性能上超越了基于图的方法。 （三）在自然科学和医学领域的开创性应用

深度学习在自然科学中的应用揭示了图形表征在建模小至大型分子结构上的强大能力。整合不同类型的数据，能够在模拟大规模的物理、化学或生物现象时，架构起分子与有机体层面之间的桥梁。近年来学界推出的知识图谱应用，已经引入到精准医疗，以及在基因组、药物和临床中进行预测。多尺度学习系统正日益成为蛋白质结构预测、蛋白质性质预测以及生物分子相互作用建模等领域的重要工具。这些方法能够通过建模预设的图结构或修改消息传递算法，来整合物理关系的数学描述、知识图谱、先验分布和约束条件。当这类信息存在时，多模态学习可以增强视觉系统中图像去噪、图像修复以及人-物交互等方面的性能。

图神经网络与组合优化读书会

现实世界中大量问题的解决依赖于算法的设计与求解。传统算法由人类专家设计，而随着人工智能技术不断发展，算法自动学习算法的案例日益增多，如以神经网络为代表的的人工智能算法，这是算法神经化求解的缘由。在算法神经化求解方向上，图神经网络是一个强有力的工具，能够充分利用图结构的特性，实现对高复杂度算法的高效近似求解。基于图神经网络的复杂系统优化与控制将会是大模型热潮之后新的未来方向。

成为VIP会员查看完整内容