垃圾DNA中的突变可能导致自闭症
研究人员利用人工智能技术证明,所谓的“垃圾”DNA突变可导致自闭症。该研究于5月27日在Nature Genetics上发表,是第一个将此类突变与神经发育状况联系起来的研究。
该研究由Olga Troyanskaya与Robert Darnell合作领导。Troyanskaya是纽约市Flatiron研究所计算生物学中心(CCB)的基因组学副主任,也是普林斯顿大学的计算机科学教授。Darnell是洛克菲勒大学的Robert和Harriet Heilbrunn癌症生物学教授,也是Howard Hughes医学研究所的研究员。
他们的团队使用机器学习来分析1,790名自闭症患者及其未受影响的父母和兄弟姐妹的全基因组。这些人没有自闭症的家族史,这意味着他们病情的遗传原因可能是自发突变而不是遗传突变。
该分析预测了基因组部分中不编码蛋白质的遗传突变的分枝,这些区域经常被误认为是“垃圾”DNA。与非编码突变相关的自闭症病例的数量与禁用基因功能的蛋白质编码突变相关的病例数相当。
Troyanskaya说,这项工作的意义超越了自闭症。“这是第一次明确证实非遗传性非编码突变导致任何复杂的人类疾病或病症。”
研究报告的共同作者,CCB和普林斯顿的Jian Zhou说,科学家可以应用新研究中使用的相同技术来探索非编码突变在癌症和心脏病等疾病中的作用。“这使人们对不仅是自闭症,而且还有许多人类疾病的原因有了新的认识。”
只有1%到2%的人类基因组由编码制造蛋白质蓝图的基因组成。这些蛋白质在我们的身体中执行任务,例如调节血糖水平,对抗感染和在细胞之间发送通信。然而,我们基因组的另外98%不是基因死重。非编码区有助于调节基因何时何地产生蛋白质。
在没有自闭症家族史的个体中,蛋白质编码区域的突变占自闭症病例的最多30%。证据表明,引起自闭症的突变也必须发生在基因组的其他地方。
揭示哪些非编码突变可能导致自闭症是棘手的。单个个体可能具有数十个非编码突变,其中大多数是个体独有的。这使得识别受影响人群中常见突变的传统方法无法实现。
Troyanskaya和她的同事采取了新的方法。他们训练机器学习模型来预测给定序列如何影响基因表达。
这是对我们在此分析中引入的基因研究的思考转变。除了研究大群个体共享基因突变的科学家之外,我们在这里应用了一套智能,复杂的工具,告诉我们任何特定的突变将会发生什么,甚至是那些罕见或以前从未观察到的突变。
Chandra Theesfeld,普林斯顿Troyanskaya实验室的研究科学家
这些四人组既往没有自闭症的家族史,这意味着非遗传性突变可能是受影响儿童病情的原因。(这种突变在精子和卵细胞以及胚胎中自发发生。)研究人员通过将机器学习模型应用于称为Simons Simplex Collection的遗传数据宝库来研究自闭症的遗传基础。Flatiron Institute的母公司Simons Foundation制作并维护了存储库。Simons Simplex Collection包含由自闭症儿童,未受影响的兄弟姐妹及其未受影响的父母组成的近2,000个“四重奏”的全基因组。
研究人员使用他们的模型预测每个自闭症儿童的非遗传性非编码突变的影响。然后,他们将这些预测与孩子未受影响的兄弟姐妹中相同的,未突变的链的影响进行了比较。
“Simons Simplex Collection的设计使我们能够进行这项研究,”周说。“未受影响的兄弟姐妹是一个内置的控制。”
分析显示,许多自闭症儿童的非编码突变改变了基因调控。此外,结果表明突变影响了大脑中的基因表达和已经与自闭症相关的基因,例如那些负责神经元迁移和发育的基因。“这与自闭症最有可能在大脑中的表现形成一致,”该研究的共同作者,CCB研究科学家Christopher Park说。“这不仅仅是突变发生的数量,而是发生了什么样的突变。”
研究人员在实验室实验中测试了一些非编码突变的影响。他们将自闭症儿童中发现的预测高影响突变插入到细胞中,并观察到基因表达的变化。这些变化肯定了模型的预测。
Troyanskaya说她和她的同事将继续改进和扩展他们的方法。最终,她希望这项工作能够改善遗传数据如何用于诊断和治疗疾病和疾病。