首页   

Nature Medicine | 人工智能驱动的计算病理学:Virchow模型实现泛癌症检测突破

生物探索  · 生物  · 1 月前

引言

病理学分析是癌症诊断和治疗的重要环节。传统的病理学检查依赖于光学显微镜观察,但随着数字技术的发展,传统的组织学切片图像(whole-slide images,WSIs)正逐渐被其数字化版本所取代。这一转变使得计算病理学成为可能,即通过人工智能分析数字化病理图像来支持疾病的诊断和研究。
计算病理学的初步应用主要集中在临床决策支持工具的开发上,例如用于提高癌症检测的准确性和效率。2021年,第一个获得FDA批准的AI病理系统正式面世,标志着计算病理学进入了临床实践。然而,随着AI技术,特别是计算机视觉的飞速进步,研究人员开始探索如何利用常规WSIs数据挖掘新的见解,揭示预后和治疗反应等潜在信息。
为了推动计算病理学的进一步发展,7月22日Nature Medicine的研究报道“A foundation model for clinical-grade computational pathology and rare cancers detection”介绍了Virchow,这是迄今为止最大的计算病理学基础模型。Virchow模型的开发和应用展示了其在泛癌症检测中的卓越性能。研究表明,Virchow能够在九种常见癌症和七种罕见癌症中,取得0.95标本级别的ROC曲线下的面积(AUC)。这一结果表明,Virchow在癌症检测中具有极高的准确性和可靠性。
Virchow模型不仅能够在有限的训练数据条件下实现与特定组织临床级模型相似的性能,甚至在某些罕见癌症变种上超过了这些模型。这一性能提升突显了基础模型的价值,尤其是在标记训练数据有限的情况下,Virchow为实现多种高影响力的应用开辟了可能性。
Virchow模型采用了自监督学习算法,这种算法无需经过精心标注的数据集就能生成高质量的数据表示(嵌入)。这些嵌入可以很好地泛化到多种预测任务中,使其在计算病理学领域具有广泛的应用潜力。例如,Virchow能够进行癌症亚型分类、生物标志物定量、细胞实例和事件计数,以及治疗反应预测等任务。在临床应用中,Virchow模型能够显著提升病理学分析的效率和准确性,减少对专业且昂贵的免疫组织化学(IHC)或基因组测试的依赖。这不仅有助于加快诊断速度,还可以降低医疗成本,提高患者的治疗体验。
总之,Virchow模型的引入和应用为计算病理学和癌症检测开辟了新的前沿,展示了基础模型在医学领域的巨大潜力和广阔前景。通过持续的技术创新和应用探索,计算病理学有望在未来为临床实践带来更多突破性的进展。
病理组织分析在癌症诊断和治疗中具有关键作用。传统上,病理学家通过光学显微镜对组织切片进行观察和诊断。然而,随着技术的发展,这些传统的组织学图像正逐渐被数字化图像所取代,使得计算病理学成为可能。计算病理学利用AI技术,对数字化的WSIs进行分析,从而支持疾病的诊断、特征化和研究。
计算病理学的早期研究主要集中在开发临床决策支持工具上。例如,2021年,第一个获得FDA批准的AI病理系统正式推出,用于提高前列腺癌检测的准确性。然而,随着计算机视觉技术的进步,研究人员开始探索如何利用常规WSIs数据,挖掘新的见解,如预后和治疗反应。这些努力旨在通过使用H&E染色的WSIs,减少对昂贵的免疫组织化学(IHC)或基因组测试的依赖。

Virchow模型是迄今为止最大的计算病理学基础模型,旨在通过AI技术提高病理学分析的效率和准确性。该模型采用自监督学习算法,无需经过精心标注的数据集就能生成高质量的数据表示(嵌入)。这些嵌入可以很好地泛化到多种预测任务中,包括癌症亚型分类、生物标志物定量、细胞实例和事件计数,以及治疗反应预测等。

Virchow模型的开发利用了来自大约10万名患者的约150万张H&E染色的WSIs数据。这些数据包括癌性和良性组织,通过活检(63%)和切除术(37%)收集,涉及17种主要组织类型。在模型训练过程中,使用DINO v.2算法,这是一种多视图学生-教师自监督算法。该算法通过学习WSI图像的全局和局部区域,生成可以在多个下游任务中使用的嵌入。
数据集包括17种主要组织类型,例如乳腺、皮肤、淋巴结和肺等,保证了数据的多样性和广泛性。将WSI分割成较小的图像块(tiles),每个图像块大小为224×224像素,以便于模型的训练和嵌入的生成。这些图像块进一步分为全局视图和局部视图,通过多视图学习方法提高模型的泛化能力。
使用DINO v.2算法对模型进行训练。DINO v.2是一种多视图学生-教师自监督算法,通过学习图像的全局和局部区域,生成高质量的嵌入。训练过程中,模型学习WSI图像的多样性模式,包括细胞形态、组织结构、染色特征等。

研究团队对模型的性能进行了多项评估,包括全癌症检测和生物标志物预测。在全癌症检测中,使用ROC曲线和曲线下面积(AUC)作为评估指标。在生物标志物预测中,评估模型对多种生物标志物的预测准确性。

研究的总体概述(Credit: Nature Medicine

训练数据集的描述:数据集的规模和组成,包括患者数量、病例数量、标本数量和组织切片数量。
数据集覆盖的癌症类型和组织类型,如乳腺、皮肤、淋巴结和肺等,保证了数据的多样性和广泛性。数据集的来源,包括活检和切除术获取的样本比例。
模型训练过程:
Virchow模型的训练架构,使用了ViT-H(Vision Transformer-Huge)架构,包含632百万个参数。训练过程采用了DINO v.2算法,这是一种多视图学生-教师自监督算法,能够生成高质量的嵌入。模型通过处理WSI图像,将其分割成较小的图像块(tiles),并从这些图像块中提取全局和局部视图。
模型应用场景:Virchow模型的应用,包括全癌症检测、数字生物标志物预测和癌症亚型分类。具体应用示例,如在多种组织类型中的癌症检测,通过嵌入预测生物标志物状态等。
数据流和嵌入生成:
训练数据的处理流程,从WSI图像切片到图像块的生成,再到通过Virchow模型提取嵌入。这些嵌入如何被聚合和适应于不同的下游任务,如癌症检测和生物标志物预测。

在研究中,Virchow模型展示了以下几个关键性能指标:
全癌症检测:
乳腺癌(Breast cancer): Virchow模型的AUC达到0.974,比其他模型显著更高。
肺癌(Lung cancer): AUC为0.989,显示出极高的检测准确性。
结肠癌(Colon cancer): AUC为0.972。
皮肤癌(Skin cancer): AUC为0.911。
膀胱癌(Bladder cancer): AUC为0.944。
子宫癌(Uterine cancer): AUC为0.940。
胰腺癌(Pancreatic cancer): AUC为0.983。
头颈癌(Head and Neck cancer): AUC为0.989。
子宫颈癌(Cervical cancer): Virchow模型的AUC为0.875,虽然低于其他常见癌症,但在罕见癌症检测中仍表现优异。
骨癌(Bone cancer): AUC为0.841,较其他模型更为准确。
肝癌(Liver cancer): AUC为0.961。
胃癌(Stomach cancer): AUC为0.985。
卵巢癌(Ovarian cancer): AUC为0.952。
脑癌(Brain cancer): AUC为0.928。
睾丸癌(Testicular cancer): AUC为0.989。

Virchow模型在泛癌症检测中的卓越表现(Credit: Nature Medicine
不同癌症类型的检测性能Virchow模型在不同癌症类型中的检测性能,以ROC曲线下面积(AUC)为指标。图中比较了Virchow、UNI、Phikon和CTransPath模型在各癌症类型中的AUC值。结果显示,Virchow模型在所有癌症类型中的检测性能均优于或与其他模型相当,尤其是在罕见癌症和分布外数据(out-of-distribution, OOD)上表现突出。
总体和罕见癌症的检测性能汇总:b和c分别汇总了Virchow模型在所有癌症和罕见癌症中的检测性能。Virchow模型在总体癌症检测中的AUC为0.950,在罕见癌症中的AUC为0.937,均显著高于其他模型。
不同癌症类型的灵敏度和特异性:d展示了在95%特异性下,Virchow模型对罕见癌症的检测灵敏度。结果表明,Virchow模型在大多数罕见癌症类型中的灵敏度优于其他模型。
泛癌症检测在不同数据集上的表现:e和f展示了Virchow模型在内外部数据集上的泛癌症检测性能。内部分数据集(MSKCC)和外部分数据集(非MSKCC)的结果显示,Virchow模型对外部数据具有良好的泛化能力,即使这些数据集在训练时未曾见过。
模型和训练数据规模的影响:g展示了基础模型的规模和训练数据数量对癌症检测性能的影响。结果表明,模型参数数量和训练样本数量的增加均能显著提升检测性能。

生物标志物预测:
预测雄激素受体(Androgen Receptor, AR)状态的AUC为0.849。
预测卵巢癌基因组改变(Fraction of Genome Altered, FGA)的AUC为0.847。
其他生物标志物如EGFR(表皮生长因子受体)在肺癌中的预测AUC也显示出极高的准确性。

Virchow模型的引入为计算病理学开辟了新的前沿。通过自监督学习和大规模数据训练,Virchow模型展示了其在多种病理学任务中的广泛应用潜力。在临床应用中,Virchow模型能够显著提升病理学分析的效率和准确性,减少对昂贵且侵入性的检测手段的依赖。这不仅有助于加快诊断速度,还可以降低医疗成本,提高患者的治疗体验。
此外,Virchow模型在处理罕见癌症和分布外数据时表现出的优异性能,表明其在应对多样化和复杂数据方面具有巨大潜力。未来,随着技术的不断进步,Virchow模型有望在更多临床场景中得到应用,为计算病理学和精准医疗的发展贡献更多力量。

通过本文的研究,可以看到,Virchow模型作为一种大型基础模型,在计算病理学和癌症检测中的应用前景广阔。其卓越的性能和广泛的应用潜力,为病理学分析和癌症诊断提供了新的思路和方法。随着技术的进一步发展,Virchow模型有望在更多临床实践中发挥重要作用,推动医学领域的创新和进步。



参考文献


Vorontsov E, Bozkurt A, Casson A, Shaikovski G, Zelechowski M, Severson K, Zimmermann E, Hall J, Tenenholtz N, Fusi N, Yang E, Mathieu P, van Eck A, Lee D, Viret J, Robert E, Wang YK, Kunz JD, Lee MCH, Bernhard JH, Godrich RA, Oakley G, Millar E, Hanna M, Wen H, Retamero JA, Moye WA, Yousfi R, Kanan C, Klimstra DS, Rothrock B, Liu S, Fuchs TJ. A foundation model for clinical-grade computational pathology and rare cancers detection. Nat Med. 2024 Jul 22. doi: 10.1038/s41591-024-03141-0. Epub ahead of print. PMID: 39039250.
https://www.nature.com/articles/s41591-024-03141-0



责编|探索君

排版|探索君

转载请注明来源于【生物探索】

End




往期精选

围观

一文读透细胞死亡(Cell Death) | 24年Cell重磅综述(长文收藏版)

热文

Cell | 是什么决定了细胞的大小?

热文

Nature | 2024年值得关注的七项技术

热文

Nature | 自身免疫性疾病能被治愈吗?科学家们终于看到了希望


热文

CRISPR技术进化史 | 24年Cell 综述

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com