npj: 机器学习—预测识别单壁碳纳米管的DNA序列

2019 年 3 月 16 日 知社学术圈

海归学者发起的公益学术平台

分享信息,整合资源

交流学术,偶尔风月

DNA 具有分散和筛选不同手性和偏手性的单壁碳纳米管的特性,这将带来诸多应用。为寻找能够筛选任一给定类型碳管的DNA序列,人们已经开展了大量工作,并在理解DNA/碳管复合物结构及热力学方面取得了很大进展。然而,从头预测识别序列的方法尚难以实现,而且通过搜索巨大的单链DNA库来寻找序列的成功率非常低。

来自美国Lehigh大学化学与生物分子工程系的Anand Jagota等,基于现有实验序列数据集,报告了一种用机器学习分析来预测识别DNA序列的有效方法。为便于分析、解释,他们将SWCNT识别的DNA序列限制为只有2种碱基组合(C&T)的、12个碱基构成的短序列。以已知数据训练机器学习模型,并将实验测试过的新序列数据集添加到原始数据集,重新训练模型。通过交叉验证和新测试集上的预测误差来评估预测性能,并通过特征表示方法改进模型性能。结果显示准确预测识别序列的频率从原始训练集的10%显著提升到> 50%。他们所获得的机器学习模型,有可能为更普遍的序列选择问题提供新的途径。


该文近期发表于npj Computational Materials 5: 3 (2019),英文标题与摘要如下,点击左下角“阅读原文”可以自由获取论文PDF。



Learning to predict single-wall carbon nanotube-recognition DNA sequences 


Yoona Yang, Ming Zheng & Anand Jagota 


Abstract DNA/single-wall carbon nanotube (SWCNT) hybrids have enabled many applications because of their special ability to disperse and sort SWCNTs by their chirality and handedness. Much work has been done to discover sequences which recognize specific chiralities of SWCNT, and significant progress has been made in understanding the underlying structure and thermodynamics of these hybrids. Nevertheless, de novo prediction of recognition sequences remains essentially impossible and the success rate for their discovery by search of the vast single-stranded DNA library is very low. Here, we report an effective way of predicting recognition sequences based on machine learning analysis of existing experimental sequence data sets. Multiple input feature construction methods (position-specific, term-frequency, combined or segmented term frequency vector, and motif-based feature) were used and compared. The transformed features were used to train several classifier algorithms (logistic regression, support vector machine, and artificial neural network). Trained models were used to predict new sets of recognition sequences, and consensus among a number of models was used successfully to counteract the limited size of the data set. Predictions were tested using aqueous two-phase separation. New data thus acquired were used to retrain the models by adding an experimentally tested new set of predicted sequences to the original set. The frequency of finding correct recognition sequences by the trained model increased to >50% from the ~10% success rate in the original training data set.


扩展阅读

 

npj: 纳米孪晶的软硬变化

npj: 固体稳定性—分解反应DFT预测

npj: 密度泛函理论—固态赝势的计算

npj:机器学习—热电材料的回过与预测

npj:掺杂剂间超大相互作用稳定了纳米相

本文系网易新闻·网易号“各有态度”特色内容

媒体转载联系授权请看下方

登录查看更多
0

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
65+阅读 · 2020年3月5日
【学科交叉】抗生素发现的深度学习方法
专知会员服务
23+阅读 · 2020年2月23日
【华侨大学】基于混合深度学习算法的疾病预测模型
专知会员服务
96+阅读 · 2020年1月21日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机经典算法回顾与展望——机器学习与数据挖掘
中国计算机学会
5+阅读 · 2019年10月11日
大讲堂 | 基于医疗知识的疾病诊断预测
AI科技评论
10+阅读 · 2019年1月22日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
npj: 机器学习添视觉—材料缺陷快分析
知社学术圈
6+阅读 · 2018年8月18日
时间序列深度学习:状态 LSTM 模型预测太阳黑子(下)
R语言中文社区
9+阅读 · 2018年6月15日
[机器学习] 用KNN识别MNIST手写字符实战
机器学习和数学
4+阅读 · 2018年5月13日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关资讯
计算机经典算法回顾与展望——机器学习与数据挖掘
中国计算机学会
5+阅读 · 2019年10月11日
大讲堂 | 基于医疗知识的疾病诊断预测
AI科技评论
10+阅读 · 2019年1月22日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
npj: 机器学习添视觉—材料缺陷快分析
知社学术圈
6+阅读 · 2018年8月18日
时间序列深度学习:状态 LSTM 模型预测太阳黑子(下)
R语言中文社区
9+阅读 · 2018年6月15日
[机器学习] 用KNN识别MNIST手写字符实战
机器学习和数学
4+阅读 · 2018年5月13日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
Top
微信扫码咨询专知VIP会员