请问在genebank下载的细菌核酸数据(.seq.gz结尾),如何转换成fasta格式?
关注者
4被浏览
8,178登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
我能想到以下三条思路:
- 与病毒序列数据库比对,用比对上的reads进行拼接、binning、注释。
- 与病毒以外的生物序列数据库(真核生物和原核生物)比对,用没比对上的reads进行拼接、binning、注释
- 不对reads进行物种筛选,只对reads质量过滤后,直接拼接、binning,然后从binning中筛选出病毒基因组。
第一种方法针对性很强,如果你不关注那些数据库没有的病毒,这是比较快速的方法,不需要和其他生物的序列数据库(数据量超大)比对。
题主描述的更像是第二种方法。这种方法优点是灵敏度更高,可以保留那些数据中没有的病毒序列,缺点是计算量很大。你似乎只考虑了人类和原核生物(细菌和古菌)。不知道你的数据里面是否可能包含真菌、原生动物等生物?如果是,是不是还要考虑对应的序列数据库?此外,细菌里面常常有各种噬菌体,如果你把比对到细菌数据库去除,那也就把这些病毒排除在外了。
似乎很多文献采用的是第三种方法。把序列拼接、封箱好之后,你将有更多的信息去判断一个bin到底是不是病毒(通过标记基因等)。除此之外,你还获得了整个宏基因组的数据,可以去探索该样本中病毒以外的微生物的分布。