ICLR 2022｜化学反应感知的分子表示学习

在化学中，一般用IUPAC命名法、分子式、结构式、骨架式等形式来表示一个分子，然而这些形式最初是为人类而不是计算机设计的。为了便于计算机理解和利用分子，MRL被提出，MRL将分子映射到低维空间，表示为稠密向量。分子的学习向量（又称嵌入）可用于广泛的下游任务，如化学反应预测、分子性质预测、分子结构预测等。

研究人员已经提出了许多MRL方法，其中大部分都将SMILES字符串作为输入，尽管这些语言模型功能强大，但它们却很难从SMILES中学习到分子的原始结构信息，因为SMILES是分子结构的一维线性化。而GNN在处理分子表示中局限于设计新颖精致的GNN结构，忽略了MRL的本质——泛化能力。这激励了作者探索GNN架构之外的方法。

在本文中，作者使用化学反应来协助学习分子表征，提高其泛化能力。化学反应通常由化学反应方程式表示，反应物在左侧，生成物在右侧，例如乙酸和乙醇的费希尔酯化反应。作者的想法是保持分子在嵌入空间的等价性。更重要的是，当分子编码器是以总和作为readout函数的GNN时，该模型能够自动隐式地学习同一类别内一组化学反应的反应模板，学习反应模板是提高分子表征泛化能力的关键。

作者将该模型称为MoLR（chemical-reaction-aware molecule embeddings，化学反应感知的分子嵌入）。并且将可视化分子嵌入，表明它们能够编码反应模板和几个关键的分子属性，如分子大小和最小环的数量。

成为VIP会员查看完整内容