近日,上海交通大学生命科学技术学院韦朝春团队和中国农业科学院作物科学研究所合作完成基于三代测序数据的水稻泛基因组构建及分析,相关成果论文 “Long-read sequencing of 111 rice genomes reveals significantly larger pan-genomes”在基因组学顶级期刊《Genome Research》在线发表。
该研究通过引入一系列新方法处理长读长测序,构建了针对三代测序(TGS)数据的水稻泛基因组构建方法。与水稻参考基因组日本晴相比,新方法从105 个栽培稻(OS)构建的泛基因组包含 604 Mb 的新序列,比此前由~3000 个栽培稻品种二代测序数据(SGS)构建的泛基因组(~270Mb新序列)更全面。其中,重复序列是新序列的主要组成部分。加上6个野生稻(OR)品种,水稻泛基因组比现有参考基因组多879 Mb新序列和19,000个新基因。此外,该研究还为所有代表性水稻群体创建了9个高质量的参考基因组,包括 5 个无间隙参考基因组。
该研究工作是由上海交通大学韦朝春教授课题组和中国农业科学院作物科学研究所徐建龙研究员课题组合作完成。中国农业科学院作物科学研究所张帆副研究员和上海交通大学生命科学技术学院博士生薛泓嶂为共同第一作者,中国农业科学院作物科学研究所王文生研究员、徐建龙研究员和上海交通大学韦朝春教授为共同通讯作者。中国农业科学院作物科学研究所黎志康研究员设计并参与了该项研究。
泛基因组(Pan-genome)是指某个群体中所有个体基因组的总和,泛基因组的构建和基因存在-缺失变异(PAVs)分析是基因组研究的新热点。基于二代测序技术,人们初步构建了主要作物(如水稻、玉米、大豆)的泛基因组。然而,使用二代测序数据构建的泛基因组仍存在基因组不完整和基因注释不准确的缺点。这些问题在很大程度上可以通过长读长测序(也称为三代测序)技术解决。
该研究挑选了100多个代表性水稻品种,结合二代和三代测序技术进行全基因组测序,获得了连续性和完整性很高的个体基因组;在此基础上,构建了高质量水稻泛基因组,并填补了9个代表性水稻群体的高质量参考基因组, 其中包括 5 个无间隙基因组。
在111 个水稻构建的高质量泛基因组中包含879 Mb 的非冗余新序列(序列相似度<90% ,长度> 500bp)。新序列中近一半为长末端重复(LTRs)逆转录元件Gypsy。新序列分布在每条染色体上,Chr1 包含最多数量的新序列,而 Chr11 具有最长长度的新序列。除了 Chr4 和 Chr11 的端粒附近的两个峰以外,含有高密度新序列的基因组区域倾向于位于着丝粒附近。在所有水稻基因组中,野生稻包含的重复序列 LTRs 明显多于栽培稻。在水稻泛基因组新序列中共发现19,319 个新的蛋白质编码基因(2,132 个新基因家族)。在所有基因家族中,约80%是核心或软核心(存在于所有样本中或者存在于超过 90% 的样本中),约20%是非必需的。
为了探究测序技术对泛基因组构建及分析的影响,该研究分别比较了75个水稻品种的二代和三代测序数据构建的泛基因组及其基因的存在和缺失结果(基因PAV)。将基因分为三组(TGS偏好的、SGS偏好的和无偏好的)后,与SGS偏好的基因相比,TGS偏好的基因具有更高的GC含量和更短的CDS长度。大多数 SGS 偏好的基因的所有 CDS 区域都与重复元件重叠,这与 DNA 转座子和 LTR 相关。然而,具有较高LINEs和 RC/Helitron比例的基因在 TGS 中比在 SGS 中更频繁地被检测到。这些结果表明,SGS数据在检测基因PAVs时往往会得到更高的假阳性率,尤其是对于包含重复序列的基因。
该研究进一步对栽培稻的基因PAV与表型进行了关联分析,检测到14,471个显著的基因PAV和表型的关联。例如LOC_Os01g27930(一种反转录转座子蛋白)的缺失与籽粒长宽比增加相关,而它的存在也与籽粒宽度增加相关。这些结果表明,基因PAVs对水稻表型变异可能有重要贡献。
该项研究得到上海市自然科学基金、国家自然科学基金、三亚崖州湾科技城海南省联合项目、海南崖州湾种子实验室项目、农业科技创新计划与合作创新任务、上海交通大学代谢与发育国际联合实验室(JiRLMDS)联合研究基金以及CAAS创新团队和国家高层次人才特殊支持计划支持。项目实施过程中还得到上海交通大学高性能计算中心的大力支持。
论文链接: