Inference of population structure from genetic data plays an important role in population and medical genetics studies. The traditional EIGENSTRAT method has been widely used for computing and selecting top principal components that capture population structure information (Price et al., 2006). With the advancement and decreasing cost of sequencing technology, whole-genome sequencing data provide much richer information about the underlying population structures. However, the EIGENSTRAT method was originally developed for analyzing array-based genotype data and thus may not perform well on sequencing data for two reasons. First, the number of genetic variants $p$ is much larger than the sample size $n$ in sequencing data such that the sample-to-marker ratio $n/p$ is nearly zero, violating the assumption of the Tracy-Widom test used in the EIGENSTRAT method. Second, the EIGENSTRAT method might not be able to handle the linkage disequilibrium (LD) well in sequencing data. To resolve those two critical issues, we propose a new statistical method called ERStruct to estimate the number of sub-populations based on sequencing data. We propose to use the ratio of successive eigenvalues as a more robust testing statistic, and then we approximate the null distribution of our proposed test statistic using modern random matrix theory. Simulation studies found that our proposed ERStruct method has improved performance compared to the traditional Tracy-Widom test on sequencing data. We further illustrate our ERStruct method using the sequencing data set from the 1000 Genomes Project. We also implemented our ERStruct in a MATLAB toolbox which is now publicly available on github: https://github.com/bglvly/ERStruct.


翻译:遗传数据对人口结构的推断在人口和医学遗传学研究中起着重要作用。传统的EIGENSTRAT方法在计算和选择获取人口结构信息的最高主要组成部分时被广泛使用(Price等人,2006年)。随着测序技术的进步和成本的下降,全基因测序数据为基本人口结构提供了更丰富的信息。然而,EIGENSTRAT方法最初是为分析基于阵列的基因型数据而开发的,因此可能由于两个原因在测序数据方面效果不佳。第一,在测序数据时,传统的基因变种数量远远大于抽样规模($n美元),因此,样本对标价比率比率($/p$)的比率几乎为零,违反了EIGENSTRAAT方法中使用的TRA-Widom测试假设。EIGENSTRAAT方法可能无法处理基于阵列的不均匀数据(LD),因此,为了解决这两个关键问题,我们提议采用新的统计方法,称为ERST/ERSURtruct, 来估算基于测序数据的子序列的亚组数量。我们提议采用更稳性测试方法,我们采用最新的统计方法,我们现在的模型测试方法,我们还采用了的数值,我们采用新的数据序列分析方法,我们现在采用的基数基数。我们采用。我们采用的基数基号,我们使用的计算方法,我们采用新的数据,我们采用的基数号,我们使用的计算方法,我们使用的是采用新的数据,我们所测序算方法,我们使用的计算方法,我们采用较稳性测序数据,我们使用的计算方法,我们使用的计算方法,我们使用的方法是用新的数据,我们使用的计算方法,我们使用的试算。我们采用的基数基数基数。我们使用的计算方法,我们使用的计算方法,我们使用的计算方法,我们使用的计算方法,我们使用的计算方法,我们使用的计算方法,我们使用的计算方法,我们使用的基数基数基数基数基数基数基数基数基数基数基数基数基数基数基数。我们使用的计算。我们采用。我们采用。我们采用。我们采用。我们使用的计算方法,我们使用的计算方法,我们采用的基数。我们使用的方法是采用比较的基数组方法,我们采用的基数。我们采用的基数。我们测算。我们测序图,我们

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
专知会员服务
52+阅读 · 2020年9月7日
自动结构变分推理,Automatic structured variational inference
专知会员服务
38+阅读 · 2020年2月10日
计算机 | ICDE 2020等国际会议信息8条
Call4Papers
3+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年5月25日
VIP会员
相关资讯
计算机 | ICDE 2020等国际会议信息8条
Call4Papers
3+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员