Science封面:20年后,人类基因组计划终于完整了

2022 年 4 月 2 日 学术头条


本周五,最新一期 Science 杂志同时发表了六篇文章,并以封面形式介绍了人类基因组计划的最新成果。这也是时隔二十多年后,人类基因组计划的全新里程碑:一份更完整的人类基因组。

二十多年前完成的人类基因组计划,其实遗漏了大约 8%的 DNA 序列。这些遗漏的部分,主要是 DNA 序列高度重复的染色体中间部分的着丝粒、末端的端粒(在很大程度上之前被视为垃圾)。二十多年来,研究人员认为,这些区域可能在进化和疾病中发挥关键作用。

在这次发表的最新成果中,由大约 100 名科学家组成的团队首次完成了对整个人类基因组的完整测序,并将完整结果发表在 Science 杂志上。



研究人员表示,完成完整的人类基因组测序是一项重要科学成就,为了解人类 DNA 提供了首个全面视角。这些最基本的信息将增进对人类基因组所有细微功能差别的了解,促进对人类疾病的基因研究。

生命科学的“登月计划”

人类基因组计划(Human Genome Project, HGP)是一项规模宏大,跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体(指单倍体)中所包含的 30 亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。

人类基因组计划由美国科学家于 1985 年率先提出,于 1990 年正式启动的。美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达 30 亿美元的人类基因组计划。截止到 2003 年 4 月 14 日,人类基因组计划的测序工作已经完成。其中,2001 年人类基因组工作草图的发表被认为是人类基因组计划成功的里程碑。

人类基因组计划与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,是人类科学史上的又一个伟大工程,被誉为生命科学的“登月计划”。

人类基因组分布在 23 对染色体中,由超过 60 亿个单独的 DNA 碱基组成,与黑猩猩等其他灵长类动物的数量大致相同。为了读取基因组,科学家首先将所有 DNA 切成数百到数千个字母长的片段,然后测序机器读取每个片段中的单个字母,然后再试图以正确的顺序组装这些字母,就像拼一个复杂的拼图一样。

(来源:Pixabay)


但是,这里面的一个挑战是基因组的某些区域一遍又一遍地重复相同的字母。重复区域包括着丝粒,这是将两条染色体连接在一起并在细胞分裂中起关键作用的部分,以及为细胞蛋白质工厂提供指令的核糖体 DNA。还有其他重复部分包括可能帮助物种适应环境的新基因。

正是由于这些DNA的重复,使得在人类基因组测序时无法以正确的顺序组装一些 DNA 片段。另一个障碍是,大多数细胞包含两个基因组——一个来自父亲,一个来自母亲。当研究人员试图组装所有片段时,来自每个亲本的序列可能混合在一起,从而掩盖了每个单独基因组中的实际变异。

虽然人类基因组计划在 2003 年取得了巨大成功,但实际上,离最终的胜利还差一点点。由超过 8% 的基因组并没有被解读,这些缺失的部分包含高度重复的序列,并在很大程度上被视为“垃圾”。

但实际上并非如此,华盛顿大学霍华德休斯医学研究所(HHMI)研究员 Eichler 说, “事实证明,我感兴趣的许多地区都在缺口中。”

首个完整的人类基因组

随着基因测序技术的快速发展,科学家们意识到,最新的测序仪拥有一次准确读取上百万碱基 DNA 片段的能力,这为最终解决基因组难题打开了大门。

于是,由美国国家人类基因组研究所、加利福尼亚大学圣克鲁斯分校、华盛顿大学等机构研究人员领衔的国际科研团队组成“端粒到端粒联盟(T2T)”,对人类基因组进行完整的、无间隙测序。

研究人员表示,人类基因组含有约 30 亿个 DNA(脱氧核糖核酸)碱基对,完成这些碱基对的完整、无间隙测序对于了解人类基因组变异全谱、掌握基因对某些疾病的影响至关重要。

(来源:Pixabay)


在《科学》杂志发表的六篇论文中,研究人员还深入寻找了生命基因天数的生物学意义。例如,研究团队在着丝粒和其它预期发现了出乎意料的高水平遗传变异。

共同领导 T2T 工作的 Miga 表示,这些数据为研究着丝粒提供了新时代的基础,科学家们现在将能够探索这些新发现的变异,如何导致疾病,以及着丝粒 DNA 如何随着时间变化。

研究结果还揭示了基因变异的更复杂模式,这有助于解释人类的快速进化,也有助于创造人类物种。研究人员解释,完整的基因组序列表明,一些与更大的大脑相关的基因是高度可变的。一个人可能有十个特定基因的拷贝,而其他人可能只有一两个。

研究人员表示,单个基因组的成功完成并不是硬道理。联盟成员已经在努力对一个基因组进行测序,该基因组具有从每个父母那里继承的不同染色体。他们还开始了一项泛基因组工作,以读取来自世界各地的数百人的整个 DNA 序列。“目标是创建尽可能完整的人类基因组,代表更多的人类多样性。”该项目联合负责人 Jarvis 解释道。

参考资料:
https://www.science.org/doi/10.1126/science.abj5089
https://www.science.org/doi/10.1126/science.abj6965
https://www.science.org/doi/10.1126/science.abj6987
https://www.science.org/doi/10.1126/science.abk3112
https://www.science.org/doi/10.1126/science.abl4178
https://www.science.org/doi/10.1126/science.abl3533

点这里关注我👇记得标星~





热门视频推荐

更多精彩视频,欢迎关注学术头条视频


# 往期推荐 #


winter

【学术头条】持续招募中,期待有志之士的加入

强势招募兼职作者!邀你书写前沿科技内容

2021-12-21

 
登录查看更多
0

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
【Nature. Mach. Intell. 】图神经网络论文汇集
专知会员服务
46+阅读 · 2022年3月26日
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
28+阅读 · 2022年2月20日
中国机器人产业应用创新白皮书(2021),91页pdf
专知会员服务
72+阅读 · 2022年1月9日
专知会员服务
143+阅读 · 2021年6月10日
【干货书】计算机科学,647页pdf,Computer Science
专知会员服务
44+阅读 · 2021年5月10日
2019中国硬科技发展白皮书 193页
专知会员服务
77+阅读 · 2019年12月13日
可浏览的人类大脑皮层 PB 量级重建
TensorFlow
1+阅读 · 2021年7月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
2D Human Pose Estimation: A Survey
Arxiv
0+阅读 · 2022年4月15日
Arxiv
0+阅读 · 2022年4月14日
Arxiv
28+阅读 · 2021年10月1日
Advances and Open Problems in Federated Learning
Arxiv
17+阅读 · 2019年12月10日
VIP会员
相关VIP内容
【Nature. Mach. Intell. 】图神经网络论文汇集
专知会员服务
46+阅读 · 2022年3月26日
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
28+阅读 · 2022年2月20日
中国机器人产业应用创新白皮书(2021),91页pdf
专知会员服务
72+阅读 · 2022年1月9日
专知会员服务
143+阅读 · 2021年6月10日
【干货书】计算机科学,647页pdf,Computer Science
专知会员服务
44+阅读 · 2021年5月10日
2019中国硬科技发展白皮书 193页
专知会员服务
77+阅读 · 2019年12月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员