上海交大吕晖课题组开发出基因组二代测序数据质控新方法
发布时间 :2022-10-24  阅读次数 :2529

近日,国际知名期刊《Communications Biology》在线发表了上海交大吕晖教授课题组题为“FVC as an adaptive and accurate method for filtering variants from popular NGS analysis pipelines”的最新研究成果。该研究提出了一种新的基因组二代测序数据质量控制方法,有效提升了二代测序检出的基因变异的可靠性。上海交大生命科学技术学院博士毕业生任永永、孔艳博士后为共同第一作者,生命科学技术学院吕晖教授和赵宏宇教授为共同通讯作者。

全基因组二代测序技术已广泛应用在儿科遗传疾病诊断、肿瘤基因组图谱分析、全基因组关联分析等基因组研究领域,但由于测序和分析误差,检出的SNV和INDEL变异类型中存在大量假阳性变异,给基因组图谱分析和遗传疾病的鉴别诊断带来了较大的噪声干扰。目前已有多个方法可用于过滤二代测序检出的假阳性变异,例如Frequency、Hard-Filter、 VQSR、GARFIELD和VEF,但这些方法在过滤假阳性变异的同时,损失了数倍的真变异,严重干扰了下游的遗传疾病诊断和分子功能研究。

为解决上述问题,吕晖团队构建了自适应过滤方法FVC (Filtering for Variant Calls),用于对不同遗传变异分析软件(例如GATK HaplotypeCaller、Mutect、Varscan和DeepVariant)检出结果中的假阳性变异进行过滤。

研究结果显示,相较于其它过滤方法,新方法FVC过滤掉了更多的假阳性变异,同时召回了其它过滤方法遗漏的~51-99%真阳性变异,当使用评价指标OFO(Odds of false omission, 损失的真阳性变异个数与过滤掉的假阳性变异个数之比,又名真阳性损失比)进行性能评价时,FVC将真阳性损失比OFO从0.05-1661.28降低至0.02-0.57。为排除潜在的数据泄露和过拟合导致的评估偏差,分别使用留一染色体交叉验证(leave-one-chromosome-out cross-validation)、留一个体交叉验证(leave-one-individual-out cross-validation)和独立测试集进行验证,FVC同样获得了最佳性能。

该工作得到上海交通大学高性能计算中心(HPC)、沈南鹏上海交通大学“医学研究基金”和中国国家重点研发计划(2018YFC0910500)的支持。

论文链接:

https://www.nature.com/articles/s42003-022-03397-7