nature

当前位置: Nature » 蛋白&蛋白质组学 » 正文

Sci Rep:上海交大韦朝春研究团队开发蛋白预测新方法

标签:DNA序列 蛋白质
摘要 : 近日,Nature杂志旗下《scientific reports》在线发布了上海交通大学生命科学技术学院韦朝春副教授研究团队以博士生胡智强为第一作者的文章“Revealing Missing Human Protein Isoforms Based on Ab Initio Prediction, RNA-seq and Proteomics”,通过从DNA序列直接预测的方法结合其他证据预测人类基因组蛋白质。

 近日,Nature杂志旗下《scientific reports》在线发布了上海交通大学生命科学技术学院韦朝春副教授研究团队以博士生胡智强为第一作者的文章“Revealing Missing Human Protein Isoforms based on Ab Initio Prediction, RNA-seq and Proteomics”,通过从DNA序列直接预测的方法结合其他证据预测人类基因组蛋白质。该研究成果是与澳大利亚阿德莱德大学、美国范德堡大学、上海第二军事医科大学以及上海生物信息技术研究中心合作完成的,项目计算得到上海交通大学超算中心支持。

人类基因组究竟能编码多少个蛋白质?在人类基因组工程项目完成10多年后,这个问题似乎有些过时。尽管目前人们已经知道能够编码蛋白质的人类基因的数量是2万多个,但是由于可变剪切机制,同一个基因可以表达成多个不同的蛋白质,这2万多个人类基因究竟能编码多少个蛋白质目前仍然是个谜。虽然各种高通量测序方法进展飞速,但是很多蛋白质只在特定的组织、一定的发育阶段或者特定条件下才表达,通过实验的方法检测人类所有蛋白质在目前技术条件下几乎不可能。然而,从人类基因组序列直接预测蛋白质序列的方法可以避免这个缺陷。

韦朝春研究团队开发了一个直接从基因组序列从头预测可变剪切的方法,结合现有的海量基因表达数据,包括转录组和蛋白质组数据,找到了约3万个现有数据库中没有的蛋白质序列。随机抽样并设计实验验证表明约85%的预测结果可以得到实验验证。这些蛋白质序列使现有数据库中约完整的蛋白质序列数量增加到约9万个。和公共数据库中已有的蛋白质相比,这些新发现的蛋白质的表达具有更高的组织特异性,表达量相对较低,因而也更难被发现。根据这些结果,他们预测人类基因组编码的蛋白质的数量不少于20万个。

这一结果提高了对基因组复杂性的理解,为生物医学研究的广泛领域提供了更完整的人类参考基因组注释,具有重要的理论指导意义和实际应用价值。

原文链接:

Revealing Missing Human Protein Isoforms based on Ab Initio Prediction, RNA-seq and Proteomics

原文摘要:

Biological and biomedical research relies on comprehensive understanding of protein-coding transcripts. However, the total number of human proteins is still unknown due to the prevalence of alternative splicing. In this paper, we detected 31,566 novel transcripts with coding potential by filtering our ab initio predictions with 50 RNA-seq datasets from diverse tissues/cell lines. PCR followed by MiSeq sequencing showed that at least 84.1% of these predicted novel splice sites could be validated. In contrast to known transcripts, the expression of these novel transcripts were highly tissue-specific. based on these novel transcripts, at least 36 novel proteins were detected from shotgun proteomics data of 41 breast samples. We also showed L1 retrotransposons have a more significant impact on the origin of new transcripts/genes than previously thought. Furthermore, we found that alternative splicing is extraordinarily widespread for genes involved in specific biological functions like protein binding, nucleoside binding, neuron projection, membrane organization and cell adhesion. In the end, the total number of human transcripts with protein-coding potential was estimated to be at least 204,950.

来源: Scientific Reports 浏览次数:0

热门文章TOP

RSS订阅 - 填写您的邮件地址,订阅我们的精彩内容: - 网站地图
网站联系电话:020-87540820 备案号:粤ICP备11050685号-8 增值电信业务经营许可证:粤B2-20120479
©2011-2015 生物帮 All rights reserved.