科学家实现了人类X染色体的首次完整组装
尽管目前的人类参考基因组是有史以来生产的最准确,最完整的脊椎动物基因组,但即使经过二十年的改进,DNA序列仍存在缺口。现在,科学家们首次确定了人类染色体从一端到另一端的完整序列(“端粒到端粒”),并且没有空缺且准确性达到空前水平。
7月14日在《自然》杂志上发表了完整的人类X染色体的端粒到端粒装配体,这对于基因组学研究人员而言是具有里程碑意义的成就。加州大学圣克鲁斯分校基因研究所的首席科学家卡伦·米加说,该项目是通过支持“超长读取”的新型测序技术得以实现的,例如加州大学圣克鲁斯分校率先开发的纳米孔测序技术。
重复的DNA序列在整个基因组中很常见,并且总是给测序带来挑战,因为大多数技术会产生相对较短的序列“读取”,然后像拼图游戏一样将它们拼在一起组装基因组。重复序列会产生许多短读,它们看起来几乎是相同的,就像拼图中一片广阔的蓝天,不知道这些片段如何组合在一起或有多少重复。
Miga说:“这些重复序列丰富的序列曾经被认为很难处理,但是现在我们在测序技术上取得了长足的进步。”“通过纳米孔测序,我们可以超长读取数十万个碱基对,这些碱基对可以跨越整个重复区域,从而绕开了一些挑战。”
填补人类基因组序列中剩余的空白,可以打开基因组的新区域,研究人员可以在其中寻找序列变异与疾病之间的关联以及有关人类生物学和进化的重要问题的其他线索。
“我们开始发现这些参考序列中存在缺口的区域实际上是人类变异最丰富的区域之一,因此我们一直在丢失许多信息,这些信息对于理解人类生物学和疾病”,米加说。
新论文的通讯作者,美国国家人类基因组研究所(NHGRI)的Miga和Adam Phillippy共同创立了端粒至端粒(T2T)财团,以在2018年的一篇论文上共同努力,寻求完整的基因组组装。证明了纳米孔技术产生完整人类基因组序列的潜力。这项工作使用了牛津纳米孔技术公司的MinION测序仪,该测序仪通过检测DNA的单个分子通过膜中的小孔(“纳米孔”)时检测电流的变化来对DNA进行测序。
这项新项目建立在这一努力之上,将纳米孔测序与PacBio和Illumina的其他测序技术相结合,以及BioNano Genomics的光学图谱。利用这些技术,该团队产生了一个全基因组装配,其连续性,完整性和准确性超过了所有先前的人类基因组装配,甚至在某些指标上超过了目前的人类参考基因组。
米加说,尽管如此,序列中还是有多个中断。为了完成X染色体,团队不得不手动解决序列中的几个缺口。用超长的纳米孔读段解决了两个节段重复,该读段完全跨越了重复段,并在任一侧均独特锚定。剩下的断裂是在着丝粒处,这是在每个染色体上都发现的重复DNA异常困难的区域。
在X染色体中,着丝粒包含一个高度重复的DNA区域,该区域跨越310万个碱基对(DNA双螺旋中的碱基A,C,T和G形成对,并在其序列中编码遗传信息)。该团队能够鉴定出重复序列中的变异体,以用作标记,他们用于对齐长读段并将它们连接在一起以跨越整个着丝粒。
米加说:“对我来说,我们可以将一个3兆碱基大小的串联重复序列组合在一起的想法真是令人难以置信。现在,我们可以到达这些重复区域,覆盖以前被认为难以处理的数百万个碱基。”
下一步是使用来自多种测序技术的数据的抛光策略,以确保序列中每个碱基的准确性。
Miga解释说:“我们在三个不同的测序平台上使用了迭代过程,以完善序列并达到较高的准确性。”“独特的标记为超长读段提供了锚定系统,一旦锚定了读段,就可以使用多个数据集来调用每个碱基。”