Background: The inception of next generations sequencing technologies have exponentially increased the volume of biological sequence data. Protein sequences, being quoted as the `language of life', has been analyzed for a multitude of applications and inferences. Motivation: Owing to the rapid development of deep learning, in recent years there have been a number of breakthroughs in the domain of Natural Language Processing. Since these methods are capable of performing different tasks when trained with a sufficient amount of data, off-the-shelf models are used to perform various biological applications. In this study, we investigated the applicability of the popular Skip-gram model for protein sequence analysis and made an attempt to incorporate some biological insights into it. Results: We propose a novel $k$-mer embedding scheme, Align-gram, which is capable of mapping the similar $k$-mers close to each other in a vector space. Furthermore, we experiment with other sequence-based protein representations and observe that the embeddings derived from Align-gram aids modeling and training deep learning models better. Our experiments with a simple baseline LSTM model and a much complex CNN model of DeepGoPlus shows the potential of Align-gram in performing different types of deep learning applications for protein sequence analysis.


翻译:下几代测序技术的开始使生物序列数据的数量成倍增加。作为“生命语言”的引文,对蛋白质序列进行了多种应用和推理分析。动力:由于深层学习的迅速发展,近年来在自然语言处理领域出现了一些突破。由于这些方法在接受足够数据的培训时能够执行不同的任务,现成模型被用来进行各种生物应用。在本研究中,我们研究了流行的GVG-gram模型用于蛋白质序列分析的适用性,并试图将一些生物洞察纳入其中。结果:我们提出了一个新的美元-美元嵌入计划“Aleign-gram”,它能够绘制在矢量空间内相近的类似美元-mones。此外,我们试验了其他基于序列的蛋白表解,并观察到从Align-gram援助模型中提取的嵌入模型可以更好地进行各种生物应用。我们用简单的LSTM模型和深地GoGPlu蛋白蛋白质应用的非常复杂的CNN模型进行了实验。

0
下载
关闭预览

相关内容

Skip-Gram神经网络模型是一种非常简单的神经网络结构,仅有一个Hidden Layer的神经网络结构。Skip-Gram模型的训练过程可以视作一个“Fake Task(伪任务)”,训练该模型的目的并不是将训练好的模型用于任何的分类任务,而是为了学习得到隐层的权重矩阵,通过这些矩阵进而可以得到单词的特征向量。
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习情感分析综述
机器学习研究会
58+阅读 · 2018年1月26日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
3+阅读 · 2020年9月30日
Arxiv
5+阅读 · 2018年2月26日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关VIP内容
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
相关资讯
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习情感分析综述
机器学习研究会
58+阅读 · 2018年1月26日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员