Proteins are large biomolecules that regulate all living organisms and consist of one or several chains. The primary structure of a protein chain is a sequence of amino acid residues whose three main atoms (alpha-carbon, nitrogen, and carbonyl carbon) form a protein backbone. The tertiary structure is the rigid shape of a protein chain represented by atomic positions in 3-dimensional space. Because different geometric structures often have distinct functional properties, it is important to continuously quantify differences in rigid shapes of protein backbones. Unfortunately, many widely used similarities of proteins fail axioms of a distance metric and discontinuously change under tiny perturbations of atoms. This paper develops a complete invariant that identifies any protein backbone in 3-dimensional space, uniquely under rigid motion. This invariant is Lipschitz bi-continuous in the sense that it changes up to a constant multiple of a maximum perturbation of atoms, and vice versa. The new invariant has been used to detect thousands of (near-)duplicates in the Protein Data Bank, whose presence inevitably skews machine learning predictions. The resulting invariant space allows low-dimensional maps with analytically defined coordinates that reveal substantial variability in the protein universe.


翻译:蛋白质是调节所有生物体的大型生物分子,由一条或多条链构成。蛋白质链的一级结构是氨基酸残基序列,其三个主要原子(α-碳、氮和羰基碳)形成蛋白质骨架。三级结构是蛋白质链在三维空间中由原子位置表示的刚性形状。由于不同的几何结构通常具有不同的功能特性,持续量化蛋白质骨架刚性形状的差异至关重要。遗憾的是,许多广泛使用的蛋白质相似性度量不满足距离度量的公理,且在原子微小扰动下会发生不连续变化。本文开发了一种完备不变量,可在刚体运动下唯一识别三维空间中的任何蛋白质骨架。该不变量具有Lipschitz双连续性,即其变化不超过原子最大扰动的常数倍,反之亦然。这一新不变量已用于检测蛋白质数据库中数千个(近似)重复结构,这些重复的存在不可避免地会扭曲机器学习预测。由此产生的不变量空间允许构建具有解析定义坐标的低维映射,从而揭示蛋白质宇宙中的显著变异性。

0
下载
关闭预览

相关内容

专知会员服务
34+阅读 · 2021年8月16日
【AAAI2021】 层次图胶囊网络
专知会员服务
84+阅读 · 2020年12月18日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知会员服务
40+阅读 · 2020年8月26日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
Science:脂肪细胞外泌体对巨噬细胞发挥调节功能
外泌体之家
19+阅读 · 2019年3月7日
EKF常用于目标跟踪系统的扩展卡尔曼滤波器
无人机
10+阅读 · 2017年7月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关VIP内容
专知会员服务
34+阅读 · 2021年8月16日
【AAAI2021】 层次图胶囊网络
专知会员服务
84+阅读 · 2020年12月18日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知会员服务
40+阅读 · 2020年8月26日
相关资讯
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
Science:脂肪细胞外泌体对巨噬细胞发挥调节功能
外泌体之家
19+阅读 · 2019年3月7日
EKF常用于目标跟踪系统的扩展卡尔曼滤波器
无人机
10+阅读 · 2017年7月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员