项目名称: 病毒基因空间几何算法研究和对新病毒威胁快速探测及预警
项目编号: No.31271408
项目类型: 面上项目
立项/批准年度: 2013
项目学科: 生物科学
项目作者: 丘成栋
作者单位: 清华大学
项目金额: 60万元
中文摘要: 本项目计划构建基于自然向量的病毒基因组数据库, 并用它快速检测来自新病毒的威胁。 1.确定病毒的自然向量表示和基因组空间。考虑病毒基因组序列中的核甘酸的数量以及分布情况,将每个序列表示成一个数值向量(自然向量)。可以证明,序列和自然向量之间是一一对应。两个病毒之间的生物距离可以用它们所对应的自然向量的几何距离来刻画。自然向量所构成的空间可以看成是一个多维欧式空间的子空间,即基因组空间。 2.建立病毒基因组数据库。存储所有已知病毒基因组序列的自然向量。与现有的数据库不同,本数据库将支持对所有已知的病毒进行同时的比较分析。现有方法中,只有自然向量法可以完成这个任务。 3.新病毒威胁预警。在获得新病毒序列信息基础上,快速计算出其相应的自然向量并与我们数据库中的自然向量作对比。距离相近的自然向量所对应的病毒可能具有类似性质特点。通过分析与新病毒相近的已知病毒的毒性和传播方式,对新病毒作出预警报告。
中文关键词: 病毒;基因组;数据库;自然向量;聚类分析
英文摘要: In this proposal, we construct the natural vectors for DNA/genome sequences. The parameters used here are based on the numbers and distributions of nucleotides in the sequence, which is a natural way to describe these sequences. To each DNA sequence we associate a natural sequence of parameters, called a natural vector, describing the numbers and distributions of nucleotides in the sequence. We show that the correspondence between a natural vector and a DNA sequence is one-to-one. A natural distance between two DNA sequences is the distance between their corresponding natural vectors. This creates a genome space with biological distance, which allows us to do phylogenetic analysis in the most natural and easiest manner. The classification model based on permanent process is proposed to do clustering and classification of the natural vectors. Unlike many research works in the literature of classification problems, this classification model assumes only exchangeability instead of independence on observations. It has a mathematical framework allowing the existence of previously unobserved classes. Regardless of the number of classes or the dimension of the feature variables, the proposed model may require only 2-3 parameters for fitting the covariance structure within clusters. Due to the flexibility of the un
英文关键词: Virus;Genome;Database;Natural Vector;Clustering Analysis