请问在genebank下载的细菌核酸数据(.seq.gz结尾),如何转换成fasta格式?

问题详述: 最近在处理宏病毒组数据,奈何小白一枚,举步维艰。进行到去宿主这一步被卡住了,想要去除人类和细菌基因组序列,人类的基因组数据库很好找但是细菌…
关注者
4
被浏览
8,178
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

我能想到以下三条思路:

  1. 与病毒序列数据库比对,用比对上的reads进行拼接、binning、注释。
  2. 与病毒以外的生物序列数据库(真核生物和原核生物)比对,用没比对上的reads进行拼接、binning、注释
  3. 不对reads进行物种筛选,只对reads质量过滤后,直接拼接、binning,然后从binning中筛选出病毒基因组。

第一种方法针对性很强,如果你不关注那些数据库没有的病毒,这是比较快速的方法,不需要和其他生物的序列数据库(数据量超大)比对。

题主描述的更像是第二种方法。这种方法优点是灵敏度更高,可以保留那些数据中没有的病毒序列,缺点是计算量很大。你似乎只考虑了人类和原核生物(细菌和古菌)。不知道你的数据里面是否可能包含真菌、原生动物等生物?如果是,是不是还要考虑对应的序列数据库?此外,细菌里面常常有各种噬菌体,如果你把比对到细菌数据库去除,那也就把这些病毒排除在外了。

似乎很多文献采用的是第三种方法。把序列拼接、封箱好之后,你将有更多的信息去判断一个bin到底是不是病毒(通过标记基因等)。除此之外,你还获得了整个宏基因组的数据,可以去探索该样本中病毒以外的微生物的分布。