快80~500倍！人工智能快速预测两种蛋白质的结构互作方式

2022 年 2 月 19 日 机器之心

编辑 | 萝卜皮

抗体是免疫系统产生的小蛋白质，可以附着在病毒的特定部位以中和它。随着科学家们继续与新冠病毒 SARS-CoV-2 作斗争，一种可能的武器是合成抗体；它与病毒的刺突蛋白结合，从而阻止病毒进入人体细胞。

为了开发成功的合成抗体，研究人员必须准确了解这种附着是如何发生的。具有包含许多折叠的块状 3D 结构的蛋白质可以以数百万种组合形式粘在一起，因此在几乎无数候选物中找到合适的蛋白质复合物非常耗时。

为了简化这一过程，麻省理工学院的研究人员创建了一个机器学习模型（Equidock），可以直接预测两种蛋白质结合在一起时将形成的复合物。他们的技术比当前最先进的软件方法快 80 到 500 倍，并且经常预测更接近实验观察到的实际结构的蛋白质结构。

该研究以「Independent SE(3)-Equivariant Models for End-to-End Rigid Protein Docking」为题，于 2021 年 9 月 29 日向 ICLR 2022 会议进行盲文投稿。

蛋白质复合物的形成是生物学中的一个核心问题，它参与了细胞的大部分过程，对于药物设计或蛋白质工程等应用至关重要。研究人员处理刚体蛋白质-蛋白质对接，即从单个未结合结构计算预测蛋白质-蛋白质复合物的 3D 结构，假设在结合过程中没有 3D 灵活性。

麻省理工学院的工作人员设计了一种新的成对独立 SE(3)-Equivariant，来预测旋转和平移，以将其中一种蛋白质放置在正确的位置和相对于第二种蛋白质的正确方向。

无论两个结构的初始位置如何，该方法在数学上保证预测的复合体总是相同的，避免了昂贵的数据扩充。该模型通过优化传输和可微的 Kabsch 算法使用关键点匹配和对齐来逼近绑定口袋并预测对接姿势。

根据经验，尽管没有使用大量采样、结构细化或模板，但在现有蛋白质对接软件上实现了显著的运行时间改进，并预测了定性合理的蛋白质复杂结构。

图示：蛋白质复合物 3D 结构的不同视图。（来源：论文）

这项技术可以帮助科学家更好地了解一些涉及蛋白质相互作用的生物过程，如 DNA 复制和修复；它还可以加快开发新药的进程。

「深度学习非常擅长捕捉化学家或生物学家难以通过实验编写的不同蛋白质之间的相互作用。其中一些相互作用非常复杂，人们还没有找到表达它们的好方法。这种深度学习模型可以从数据中学习这些类型的交互。」麻省理工学院计算机科学和人工智能实验室（CSAIL）的博士后 Octavian-Eugen Ganea 说。

图示：与 Equidock 相同的输出保证。（来源：论文）

蛋白质附着

研究人员开发的名为 Equidock 的模型专注于刚体对接——当两种蛋白质通过在 3D 空间中旋转或平移而附着时发生，但它们的形状不会挤压或弯曲。

该模型采用两种蛋白质的 3D 结构，并将这些结构转换为可由神经网络处理的 3D 图。蛋白质是由氨基酸链形成的，每个氨基酸都由图中的一个节点表示。

图示：Equidock 架构和损失的详细信息。（来源：论文）

研究人员将几何知识整合到模型中，因此它了解对象在 3D 空间中旋转或平移时会如何变化。该模型还内置了数学知识，可确保蛋白质始终以相同的方式附着，无论它们存在于 3D 空间中的何处。这就是蛋白质在人体中的附着方式。

利用这些信息，机器学习系统识别出两种蛋白质中最有可能相互作用并形成化学反应的原子，称为结合口袋点。然后它使用这些点将两种蛋白质放在一起形成一个复合物。

构建此模型的最大挑战之一是克服缺乏训练数据的问题。Ganea 说，由于存在如此少的蛋白质实验 3D 数据，因此将几何知识纳入 Equidock 尤为重要。

秒 VS 小时

模型训练完成后，研究人员将其与四种软件方法进行了比较。Equidock 能够在一到五秒后预测最终的蛋白质复合物。所有基线都需要更长的时间，从 10 分钟到一个小时或更长时间。

图示：推理运行时间分布。（来源：论文）

在计算预测蛋白质复合物与实际蛋白质复合物有多接近的质量测量中，Equidock 通常与基线相当，但偶尔表现不佳。

「我们仍然落后于其中一个基线。我们的方法仍然可以改进，并且仍然有用。它可以用于非常大的虚拟筛选，我们想了解数千种蛋白质如何相互作用并形成复合物。我们的方法可用于非常快速地生成一组初始候选者，然后可以使用一些更准确但更慢的传统方法对这些候选者进行微调。」Ganea 说。

图示：Equidock 成功预测的蛋白质复合物的可视化。（来源：论文）

除了将这种方法与传统模型一起使用之外，该团队还希望将特定的原子相互作用纳入 Equidock 中，以便做出更准确的预测。例如，有时蛋白质中的原子会通过疏水相互作用附着，其中涉及水分子。

未来，他们计划增强 Equidock，以便它可以预测灵活的蛋白质对接。最大的障碍是缺乏训练数据，因此 Ganea 和他的同事正在努力生成可用于改进模型的合成数据。

论文链接：https://openreview.net/forum?id=GQjaI9mLet

相关报道：https://phys.org/news/2022-02-artificial-intelligence-rapidly-proteins.html

人工智能 × [ 生物神经科学数学物理材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

登录查看更多

相关内容

关注 33

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

【Nature通讯】结合深度学习和分子动力学模拟探索蛋白质的长程相互作用模式和酶活性

专知会员服务

17+阅读 · 2022年4月7日

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

专知会员服务

20+阅读 · 2022年3月14日

【MILA-唐建】几何深度学习药物发现，87页ppt，附视频与PPT

专知会员服务

59+阅读 · 2022年2月17日

【ICLR2022】通过传播网络编码学习通用的神经结构

专知会员服务

12+阅读 · 2022年2月13日

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

专知会员服务

20+阅读 · 2021年12月4日

综述：药物发现中的机器学习

专知会员服务

85+阅读 · 2021年10月11日

【Nature子刊】ProteinGAN使用生成式对抗网络生成蛋白质变体，加速药物研发

专知会员服务

25+阅读 · 2021年4月6日

MIT《图神经网络的任务结构与泛化》，22页ppt

专知会员服务

23+阅读 · 2021年2月28日

DeepMind《AlphaFold2蛋白质结构预测》CASP14介绍报告，42页ppt

专知会员服务

35+阅读 · 2021年1月15日

【干货书】深度学习生命科学：基因组学、药物发现，238页pdf

专知会员服务

187+阅读 · 2020年3月18日

靶向蛋白质降解的蛋白-蛋白相互作用预测

GenomicAI

4+阅读 · 2022年3月5日

人工智能预测RNA和DNA结合位点，以加速药物发现

机器之心

0+阅读 · 2022年2月4日

深度学习预测蛋白质-蛋白质相互作用

机器之心

5+阅读 · 2022年1月15日

与RNA、DNA及蛋白质绑定的固有无序片段的分析及预测

国家自然科学基金

2+阅读 · 2015年12月31日

基于几何算法与机器学习的反向配体结合位点预测

国家自然科学基金

3+阅读 · 2013年12月31日

蛋白质-配体绑定区域预测的特征抽取及学习算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向结构预测的蛋白质分子力场发展

国家自然科学基金

0+阅读 · 2012年12月31日

自相互作用蛋白质的系统研究和预测

国家自然科学基金

2+阅读 · 2012年12月31日

基于结构的蛋白质相互作用能量热点预测技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

应用机器学习方法预测和分析蛋白质的结构柔性

国家自然科学基金

4+阅读 · 2010年12月31日

de novo预测蛋白质结构的并行元启发方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

天然无序蛋白质的结合动力学特性及序列－结构关系

国家自然科学基金

0+阅读 · 2009年12月31日

蛋白质-蛋白质对接的计算模型研究

国家自然科学基金

0+阅读 · 2008年12月31日

Thermodynamics-informed graph neural networks

Arxiv

1+阅读 · 2022年4月19日

End-to-End Differentiable Molecular Mechanics Force Field Construction

Arxiv

0+阅读 · 2022年4月18日

Graph Condensation for Graph Neural Networks

Arxiv

1+阅读 · 2022年4月17日

Learning Convolutional Neural Networks in the Frequency Domain

Arxiv

0+阅读 · 2022年4月15日

Trustworthy AI: From Principles to Practices

Arxiv

46+阅读 · 2021年10月4日

Domain Generalization using Causal Matching

Arxiv

12+阅读 · 2021年6月29日

Directional Graph Networks

Arxiv

27+阅读 · 2020年12月10日

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

DAGCN: Dual Attention Graph Convolutional Networks

Arxiv

15+阅读 · 2019年4月4日

Interpretable Convolutional Neural Networks

Arxiv

21+阅读 · 2018年2月14日

VIP会员