“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
地址:https://zhuanlan.zhihu.com/p/432706974
目前,图形神经网络(GNNs)已广泛用于解决药物设计和发现中的问题,它将配体和靶点分子表示成带有节点和边特征的图来分别编码与原子元素和键相关的信息。虽然现有的深度学习模型在预测物理化学性质和结合亲和力方面表现出色,但生成具有优化性质的新分子仍然具有挑战性,主要体现在:
1. 受到图神经网络中消息传递范式的限制,大多数GNN在整个图的表示中表现不佳;
2. 使用强化学习或其他顺序处理的分步图生成框架可能会很慢,并导致大量无效分子,需要大量后处理才能满足化学计量原理。
为了解决上述问题,作者提出了一种表示优先的分子图生成方法,叫做GRASSY(GRAph Scattering SYnthesis network),该方法使用几何散射变换捕获到的图结构信息来指导自编码器的潜在表示,并应用惩罚通过分子属性来结构化表示。作者表明,这种高度结构化的潜在空间可以通过使用 GAN 直接用于分子图的生成。实验证明提出的方法从药物数据集中学习到了有意义的表示,并为目标导向的药物合成提供了一个平台。
01
论文题目:Molecular Graph Generation via Geometric Scattering
https://arxiv.org/abs/2110.06241(arXiv)
https://openreview.net/forum?id=JRrjhY3sJy_(ICLR 2022 openReview)
https://github.com/nicola-decao/MolGAN
02
最近,为图结构的数据构建神经网络成为了研究热点。绝大多数关于图神经网络及其变体的文献都集中在节点嵌入和节点分类上。因此,大多数的 GNN 提取节点特征通过基于邻域聚合操作,这仅提供局部信息。其它一小部分的文献则侧重在图分类上,如最近提出的工作通过跳转连接或注意机制来使用远程信息。然而,对图生成的关注相对较少,最常见的方法是基于顺序或强化学习的生成方法,但这些方法有些繁琐。在本文中,作者尝试解决这个问题通过表示优先的图生成方法,称之为图散射生成网络(GRASSY,GRAph Scattering SYnthesis network)。GRASSY 专注于分子图潜在空间嵌入的生成,该嵌入由分子结构和物理化学性质组织。然后通过对抗训练直接从这个潜在空间中生成具有所需特性的分子。
GRASSY 框架利用几何散射变换来学习图的丰富表示。该变换将 Mallat 的原始散射变换离散化,并使用多尺度图扩散小波形成每个图的全局上下文化描述。值得注意的是,作者使用的散射变换版本通过全局求和收集多尺度扩散小波系数的统计矩。因此,它产生的表示是完全置换不变的,所得到的矩数不依赖于原始图的大小。
在计算散射变换后,GRASSY 使用自动编码器降低结果空间的维数,该编码器受到重建惩罚和属性预测惩罚的约数。这产生了一个高度结构化的潜在空间,我们可以从中取样,以产生与具有理想性质的分子图相对应的散射系数。为了完成图的生成过程,GRASSY 使用了一个对抗框架,该框架直接从潜在空间中生成分子图。重要的是,我们注意到 GRASSY 没有使用顺序过程或基于强化学习的方法进行分子合成,而是根据潜在空间立即生成分子。
总的来讲,GRASSY 的关键组成部分包括以下三部分,也是作者在本文中的主要贡献:
用于在结构化潜在空间中产生分子表示的正则化自动编码器
最终,作者在 ZINC (类药分子的数据集,每个分子都有几个属性) 和 BindingDB (一个药物-靶相互作用的数据库) 两个数据集上证明了 GRASSY 的实用性。作者发现 Grassy 学习了几段 ZINC 的潜在空间,并生成了类药分子。作者还表明,GRASSY 可以学习与特定目标具有结合亲和力的分子,并在这个空间中生成分子。
03
3.1 整体架构
整体概述,包括1)在输入图上计算的几何散射动量(scattering moments),传递给2)编码器网络,其潜在空间被属性预测和图形生成任务所正则化,并通过3)解码器进行了重建训练,4)用GAN和插值损失训练的分子生成网络。
本文的主要目标是要找到一个潜在空间表示,它是关于各种分子性质以及图编辑距离的平
滑表示,并使用这种表示生成格式良好的分子图,其整体架构上图所示。
3.2 学习的散射动量
本文提出的 GRASSY 框架使用图散射变换来初步发现数据中的高维嵌入。对于每个节点标记的分子图,作者收集一组与每个标签
相关的信号。具体来说,如果顶点
有标签
,则我们定义
,否则定义
。然后,我们使用可学习的散射框架对每个信号执行多尺度小波变换,并通过对顶点求和收集统计动量。我们令
表示与图
相关的所有散射动量的集合,并使用这些动量作为正则化自编码器的输入。重要的是,在收集这些统计矩时,本文应用了全局求和,所以散射嵌入的维数不依赖于图的大小。
3.3 自编码器设计
本文将散射动量
输入到正则化的自编码器
中,该自编码器有两个损失惩罚:
重建损失: 对散射动量重建过程中的误差进行惩罚,即
,其中
是编码器,
是解码器。
回归损失: 它惩罚属性预测网络
无法从其潜在表示中预测给定分子的物理化学属性,即
。
3.4 分子生成
如
果
和
是数据集中两个图所对应的散射动能,令
和
并考虑轨迹
。令
是一个多层感知器,它输入散射系数并输出
的临界矩阵,并定义
。如前所述,作者 希望考虑不同大小的图,因此本文将取数据集中最大图的大小
。较小的邻接矩阵将扩展为
通过用零来填充。
受应用到图
像中的自动编码器对抗插值方法的启发,本文对
和判别器
进行了训练并采用了三种适合于图生成设置的损失函数:
邻接矩阵重构损失:
,其中邻接矩阵
和
是用零向量填充到
的矩阵。
对抗损失:
,其中判别器
是输出标量值的图卷积网络(GCN)。
平滑度损失:
,由解码器产生的散射动量的导数计算得到,
。
这些损失有助于产生与附近点具有相似结构的有效分
子邻接矩阵。
04
作者在2个药物和类药的大规模数据库上训练 GRASSY:
1. ZINC:使用了来自于ZINC的三个分支 FBAB, BBAB, and JBCD。
2. BindingDB:P14416和P00918。
上图展示了三个锌段中每个锌段所学习到的小波系数。它们将被用于自动编码器中来对潜在空间中的10个物理化学性质应用回归惩罚。
ZINC数据集的潜在表示
上图显示了在 GRASSY 上训练时,每个数据集的潜在空间表示。其中,潜在空间由四个不同的属性着色,每个属性都是潜在空间回归任务的一部分。
上面两张表分别显示了在不同数据集上,所提出模型在潜在空间中的物理化学性质的平滑度。
上图可视化地显示了就所列的物理化学性质而言,每种版本的 GRASSY 都产生了一个平滑的潜在空间。
上表显示了在 ZINC 数据集的不同分支中,四种不同物理化学性质的模型在分子性质预测上的误差。
上表显示了在 BindingDB 数据集中,四种不同物理化学性质的模型在分子性质预测上的误差。
05
本文提出了一种新的分子生成方法,GRASSY。给定一个以图表示的分子数据集,首先为每个图收集一系列散射动量。然后,在这些散射动量上训练一个正则化的自动编码器,以产生关于每个分子物理化学性质的潜在表示。最后,我们通过在潜在空间内引入一个 GAN 来产生化学上有效的新的分子。在实验中,作者发现他们的网络比其他方法所产生的真实分子的比例更高。作者还发现分子的物理化学性质在潜空间中变化平稳,因此提出的网络可以用来预测这些性质。