——背景——

分子的物理化学性质,如水溶性、亲脂性、膜通透性和解离度,对药物开发先导化合物的筛选具有重要意义。准确、高效地预测分子性质是药物研发的基本问题之一。表征学习已被证明大大提高了分子性质预测的性能。然而,基于监督学习的分子表示算法由于标记数据有限,只能在有限的化学空间内进行搜索,泛化能力较差。为了应对这一问题,2022年8月6日,中南大学的邓磊课题组提出了一种基于attention-wise masking的对比学习预训练模型ATMOL,改进对分子的编码与分子性质的预测。该工作发表在Briefings in Bioinformatics,题为“Attention-wise masked graph contrastive learning for predicting molecular property”。 ——方法——

图1:分子性质预测算法ATMOL的流程示意图。如图1所示,完整的算法分为两大部分,第一部分是对分子进行编码的预训练模型,第二部分是用于下游分子性质预测的迁移学习。其中预训练模型的数据来自ZINC数据库,迁移学习的数据来自MoleculeNet数据库。第一部分预训练模型包含3个关键的步骤:(a)首先作者基于SMILES对输入的分子构建分子图,然后使用图注意力网络(Graph Attention Network,GAT)将分子图编码到隐空间。(b)对编码后的分子图,根据GAT编码器学习到的attention权重对边或节点添加mask,从而产生增广的分子图。(c)通过最小化增广分子图与原始分子图之间的对比损失(Contrastive loss)来捕获重要结构和高阶语义,优化分子表示。对于训练好的分子表示模型,第二部分将固定预训练模型的参数不变,提取分子表示用于迁移学习,仅通过训练两个全连接层来预测分子性质。**——预测效果——**作者从多个维度对算法的设置进行了检验,并对预测效果进行了评估。对于分子性质的预测,作者在包含多种分子性质的7个数据库上进行测试。首先,作者将基于Attention-wise mask的预训练模型与基于监督学习的方法进行比较,发现算法ATMOL所用的对比学习预训练模型对分子性质的预测效果显著好于基于监督学习的方法,并且同时对分子图的边和节点添加mask比只对边或节点添加mask效果更好。表1:比较ATMOL方法与基于监督学习的方法预测分子性质的结果。表头表示在7个不同的数据库上的预测结果。

添加mask的方式包括随机添加或根据attention权重添加,结果显示对attention权重最大的边和节点添加mask效果最好,而以往常用的随机添加mask则效果最差(图2,左)。经过测试,作者发现添加25%(占所有边和节点的比例)的mask效果最好,说明低比例的mask无法产生有效的增广图,而高比例的mask则可能破坏了重要的分子结构从而导致预测结果变差(图2,右)。除此之外,作者还利用不同大小的数据集分别训练模型,结果显示基于大数据集上的结果优于基于小数据集上的结果。

图2:左,4种添加mask的方式对预测结果的影响。右,添加mask的比例对预测结果的影响。作者还将ATMOL与前人报道的5种基于自监督的分子表征算法同时用于分子性质的预测,进行比较。结果显示ATMOL总体优于其它5种算法,且基于大数据集的ATMOL算法在某些测试集上效果提升格外明显(表2)。表2:ATMOL与其它5种算法预测分子性质结果比较。

最后,作者试图探索算法的可解释性,通过可视化attention权重,作者发现在图3所示的例子中,算法学习到的高attention权重与已报道的关乎分子性质的重要组分相匹配。

图3:Attention权重可视化示例。(a)和(c)代表同一个分子;(b)和(d)代表同一个分子。**——总结与讨论——**邓磊课题组提出的ATMOL算法,构建了一个基于attention-wise masking的对比学习预训练模型,在预测分子性质的任务上取得了不错的提升。值得注意的是,作者认为对attention权重最大的部分添加mask,能够扩展负样本并使其更加多样化,从而有利于提高对比学习的效果。作者对算法可解释性的探索,也显示了ATMOL具有提取分子关键结构的潜力。参考文献:

[1] Liu, H., Huang, Y., Liu, X. & Deng, L. "Attention-wise masked graph contrastive learning for predicting molecular property." Briefings in Bioinformatics, bbac303. DOI: 10.1093/bib/bbac303 点击左下角的"阅读原文"即可查看原文章。


作者:陈佳晓 审稿:谢维新 编辑:黄志贤

GoDesign ID:Molecular_Design_Lab ( 扫描下方二维码可以订阅哦!)

本文为GoDesign原创编译,如需转载,请在公众号后台留言。

成为VIP会员查看完整内容
11

相关内容

医学领域的人工智能是使用机器学习模型搜索医疗数据,发现洞察,从而帮助改善健康状况和患者体验。 得益于近年来计算机科学和信息技术的发展,人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。 由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。
基于几何结构预训练的蛋白质表征学习
专知会员服务
13+阅读 · 2022年8月21日
KG-MTL:知识与数据双驱动的药物靶标预测方法
专知会员服务
17+阅读 · 2022年8月6日
利用深度学习迭代自洽的蛋白序列设计
专知会员服务
8+阅读 · 2022年7月25日
KDD 2022 | GraphMAE:自监督掩码图自编码器
专知会员服务
19+阅读 · 2022年7月14日
KDD 2021 | MoCL:利用多层次领域知识的分子图对比学习
专知会员服务
10+阅读 · 2022年5月20日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
24+阅读 · 2022年5月20日
【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
22+阅读 · 2021年10月24日
专知会员服务
38+阅读 · 2021年6月13日
基于语言的预训练模型在药物研发中的应用
GenomicAI
5+阅读 · 2022年2月19日
论文浅尝 | 融合多层次领域知识的分子图对比学习
开放知识图谱
2+阅读 · 2021年8月15日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年10月4日
Arxiv
0+阅读 · 2022年9月30日
Interest-aware Message-Passing GCN for Recommendation
Arxiv
11+阅读 · 2021年2月19日
Arxiv
15+阅读 · 2019年4月4日
VIP会员
相关VIP内容
基于几何结构预训练的蛋白质表征学习
专知会员服务
13+阅读 · 2022年8月21日
KG-MTL:知识与数据双驱动的药物靶标预测方法
专知会员服务
17+阅读 · 2022年8月6日
利用深度学习迭代自洽的蛋白序列设计
专知会员服务
8+阅读 · 2022年7月25日
KDD 2022 | GraphMAE:自监督掩码图自编码器
专知会员服务
19+阅读 · 2022年7月14日
KDD 2021 | MoCL:利用多层次领域知识的分子图对比学习
专知会员服务
10+阅读 · 2022年5月20日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
24+阅读 · 2022年5月20日
【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
22+阅读 · 2021年10月24日
专知会员服务
38+阅读 · 2021年6月13日
相关资讯
基于语言的预训练模型在药物研发中的应用
GenomicAI
5+阅读 · 2022年2月19日
论文浅尝 | 融合多层次领域知识的分子图对比学习
开放知识图谱
2+阅读 · 2021年8月15日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员