近日,Nature系列刊物scientific reports在线发布了上海交通大学生命科学技术学院韦朝春副教授研究团队以博士生胡智强为第一作者的文章Revealing Missing Human Protein Isoforms Based on Ab Initio Prediction, RNA-seq and Proteomics,通过从DNA序列直接预测的方法结合其他证据预测人类基因组蛋白质。本研究成果是与澳大利亚阿德莱德大学、美国范德堡大学、上海第二军事医科大学以及上海生物信息技术研究中心合作完成的,项目计算得到了上海交通大学超算中心支持。
人类基因组究竟能编码多少个蛋白质?在人类基因组工程项目完成10多年后,这个问题似乎有些过时。尽管目前人们已经知道能够编码蛋白质的人类基因的数量是2万多个,但是由于可变剪切机制,同一个基因可以表达成多个不同的蛋白质,这2万多个人类基因究竟能编码多少个蛋白质目前仍然是个谜。
虽然各种高通量测序方法进展飞速,但是很多蛋白质只在特定的组织、一定的发育阶段或者特定条件下才表达,通过实验的方法检测人类所有蛋白质在目前技术条件下几乎不可能。然而,从人类基因组序列直接预测蛋白质序列的方法可以避免这个缺陷。
韦朝春研究团队开发了一个直接从基因组序列从头预测可变剪切的方法,结合现有的海量基因表达数据,包括转录组和蛋白质组数据,找到了约3万个现有数据库中没有的蛋白质序列。随机抽样并设计实验验证表明约85%的预测结果可以得到实验验证。这些蛋白质序列使现有数据库中约完整的蛋白质序列数量增加到约9万个。和公共数据库中已有的蛋白质相比,这些新发现的蛋白质的表达具有更高的组织特异性,表达量相对较低,因而也更难被发现。根据这些结果,他们预测了人类基因组编码的蛋白质的数量不少于20万个。
这一结果提高了我们对基因组复杂性的理解,为生物医学研究的广泛领域提供了更完整的人类参考基因组注释,具有重要的理论指导意义和实际应用价值。