生命科学技术学院/交大医学院俞章盛团队开发通用病理图像癌症诊断和生存预测的基础模型--BEPH
发布时间 :2025-04-03  阅读次数 :83

近期,上海交通大学生命科学技术学院/交大医学院临床研究中心俞章盛教授课题组在《Nature Communications》在线发表“A foundation model for generalizable cancer diagnosis and survival prediction from histopathological images”论文。该研究开发一种通用的病理学基础模型—BEPH (BEiT-based model Pre-training on Histopathological image),用于癌症诊断和生存预测,以克服现有计算病理学方法的局限性。生命科学技术学院硕士生杨钊昌,助理研究员魏婷为共同第一作者,生命科学技术学院俞章盛教授和张岳副研究员为共同通讯作者。

临床诊断中,恶性肿瘤的确诊依赖病理专家通过显微镜分析组织样本.然而‌人工阅片仍高度依赖专家经验,‌且‌易受疲劳和资源不足的影响,‌这导致‌漏诊误诊风险大增,‌甚至‌可能延误患者后续的治疗规划。近年来,计算病理学结合深度学习技术在癌症检测、亚型分类及预后预测等多项任务上体现出了巨大优势,‌其不仅‌显著提升诊断效率,‌还能‌挖掘传统方法难以捕获的潜在信息。‌但‌其发展受限于多重挑战:‌例如‌精细标注数据稀缺、模型泛化能力弱及可解释性不足等问题,‌此外‌现有模型高度依赖特定任务标注,‌一旦‌面对新需求往往需重新开发,‌这‌进一步加剧了资源消耗。

为解决这些问题,在本研究中,我们依托掩码图像建模(Masked Image Modeling,MIM)方法,成功构建了一个可以有效处理癌症分析和生存预测问题的病理基础模型—BEPH。该模型的特色在于能利用大规模未标记病理图像数据进行自监督学习,在多种癌症相关任务中展现出广泛的应用前景。相较于参数量庞大、数据需求高的病理基础模型(如CHIEF等),BEPH通过较少的参数量和有限预训练数据,在保持模型效能相当或更优的同时,为临床场景的应用开辟了新的路径和可能性。

该模型分为预训练和微调两个阶段。在预训练时,研究者收集了来自癌症基因组图谱(TCGA)数据库中,包括32种不同类型的癌症在内的约11760张病理图像,并通过采样构建了1177万个224×224像素的预训练图像块数据集。在该数据集上经过自监督任务--掩码图像建模充分预训练后,系统地评估了模型在各种癌症检测任务中的性能和多功能性。

多种实验证明,BEPH能够灵活地适应多种计算病理学任务,在Patch级和WSI级的癌症诊断以及生存风险预测方面,取得了显著的改进。比如WSI级别的亚型分类任务中,在多个不同的癌症类型上,BEPH全面优于其他弱监督模型。即使在训练数据减少时,模型依旧保留较高的性能,表明模型能有效缓解临床环境中数据收集的难题。

BEPH在WSI级别的癌症检测任务中进一步的热图分析表明,其注意力区域(红色区域)与病理学家标注的癌变区域高度一致,说明模型能够自动关注真正的病理特征。其他模型的关注区域较为分散,部分模型甚至未能准确定位癌变区域,表明BEPH对病理特征的判别能力更强。局部放大区域(绿色框)显示,BEPH的注意力更加聚焦在癌变区域及边界,而非随机关注整个组织,增强了模型的决策可靠性。

总体而言,BEPH为癌症检测、亚型分类和生存预测提供了一条通用路径。它能够通过预训练与微调的途径实现对癌症病理变化的高效识别,并为癌症诊断和患者预后提供强有力的支持。

该项研究得到国家自然科学基金、上海市科委、上海交通大学医工交叉基金等的支持。该研究得到上海交通大学高性能计算中心的支持。

论文链接:https://doi.org/10.1038/s41467-025-57587-y