项目名称: 病毒基因空间几何算法研究和对新病毒威胁快速探测及预警

项目编号: No.31271408

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 生物科学

项目作者: 丘成栋

作者单位: 清华大学

项目金额: 60万元

中文摘要: 本项目计划构建基于自然向量的病毒基因组数据库, 并用它快速检测来自新病毒的威胁。 1.确定病毒的自然向量表示和基因组空间。考虑病毒基因组序列中的核甘酸的数量以及分布情况,将每个序列表示成一个数值向量(自然向量)。可以证明,序列和自然向量之间是一一对应。两个病毒之间的生物距离可以用它们所对应的自然向量的几何距离来刻画。自然向量所构成的空间可以看成是一个多维欧式空间的子空间,即基因组空间。 2.建立病毒基因组数据库。存储所有已知病毒基因组序列的自然向量。与现有的数据库不同,本数据库将支持对所有已知的病毒进行同时的比较分析。现有方法中,只有自然向量法可以完成这个任务。 3.新病毒威胁预警。在获得新病毒序列信息基础上,快速计算出其相应的自然向量并与我们数据库中的自然向量作对比。距离相近的自然向量所对应的病毒可能具有类似性质特点。通过分析与新病毒相近的已知病毒的毒性和传播方式,对新病毒作出预警报告。

中文关键词: 病毒;基因组;数据库;自然向量;聚类分析

英文摘要: In this proposal, we construct the natural vectors for DNA/genome sequences. The parameters used here are based on the numbers and distributions of nucleotides in the sequence, which is a natural way to describe these sequences. To each DNA sequence we associate a natural sequence of parameters, called a natural vector, describing the numbers and distributions of nucleotides in the sequence. We show that the correspondence between a natural vector and a DNA sequence is one-to-one. A natural distance between two DNA sequences is the distance between their corresponding natural vectors. This creates a genome space with biological distance, which allows us to do phylogenetic analysis in the most natural and easiest manner. The classification model based on permanent process is proposed to do clustering and classification of the natural vectors. Unlike many research works in the literature of classification problems, this classification model assumes only exchangeability instead of independence on observations. It has a mathematical framework allowing the existence of previously unobserved classes. Regardless of the number of classes or the dimension of the feature variables, the proposed model may require only 2-3 parameters for fitting the covariance structure within clusters. Due to the flexibility of the un

英文关键词: Virus;Genome;Database;Natural Vector;Clustering Analysis

成为VIP会员查看完整内容
0

相关内容

专知会员服务
251+阅读 · 2021年10月8日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
133+阅读 · 2021年9月20日
算法分析导论, 593页pdf
专知会员服务
147+阅读 · 2021年8月30日
【经典书】机器学习统计学,476页pdf
专知会员服务
120+阅读 · 2021年7月19日
【干货书】大数据小摘要,272页pdf,剑桥大学出版社
专知会员服务
41+阅读 · 2021年7月6日
【干货书】线性代数及其应用,688页pdf
专知会员服务
165+阅读 · 2021年6月10日
【干货书】图形学基础,427页pdf
专知会员服务
145+阅读 · 2020年7月12日
【元图(Meta-Graph):元学习小样本连接预测】
专知会员服务
63+阅读 · 2020年5月31日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
奥密克戎新毒株XE出现!传播速度快10%
量子位
0+阅读 · 2022年4月1日
主成分分析用于可视化(附链接)
大数据文摘
1+阅读 · 2022年3月14日
NTD的深度研究,为厘清新冠病毒机理提供新方向!
微软研究院AI头条
0+阅读 · 2021年11月23日
读者来稿 | 有效遮挡检测的鲁棒人脸识别
计算机视觉战队
19+阅读 · 2019年3月28日
基于R语言进行Box-Cox变换
R语言中文社区
45+阅读 · 2018年11月19日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
14+阅读 · 2019年9月11日
Arxiv
15+阅读 · 2019年4月4日
小贴士
相关VIP内容
专知会员服务
251+阅读 · 2021年10月8日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
133+阅读 · 2021年9月20日
算法分析导论, 593页pdf
专知会员服务
147+阅读 · 2021年8月30日
【经典书】机器学习统计学,476页pdf
专知会员服务
120+阅读 · 2021年7月19日
【干货书】大数据小摘要,272页pdf,剑桥大学出版社
专知会员服务
41+阅读 · 2021年7月6日
【干货书】线性代数及其应用,688页pdf
专知会员服务
165+阅读 · 2021年6月10日
【干货书】图形学基础,427页pdf
专知会员服务
145+阅读 · 2020年7月12日
【元图(Meta-Graph):元学习小样本连接预测】
专知会员服务
63+阅读 · 2020年5月31日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
相关资讯
奥密克戎新毒株XE出现!传播速度快10%
量子位
0+阅读 · 2022年4月1日
主成分分析用于可视化(附链接)
大数据文摘
1+阅读 · 2022年3月14日
NTD的深度研究,为厘清新冠病毒机理提供新方向!
微软研究院AI头条
0+阅读 · 2021年11月23日
读者来稿 | 有效遮挡检测的鲁棒人脸识别
计算机视觉战队
19+阅读 · 2019年3月28日
基于R语言进行Box-Cox变换
R语言中文社区
45+阅读 · 2018年11月19日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员