学术会议

文献分享|大模型时代下的人工智能进展与挑战

2025-07-04 4 分钟武汉呵尔医疗科技

文献分享:大模型时代下病理人工智能的进展与挑战

大模型时代为人工智能带来了前所未有的机遇,但同时也带来了诸多挑战。

文章配图1

2025年3月,上海交通大学医学院附属瑞金医院病理科联合中日友好医院病理科在中华病理学杂志上联合发表了“大模型时代下的病理人工智能进展与挑战”。该文章梳理了国外病理大模型的研究进展,剖析病理领域大模型构建的关键技术与核心算法,探讨大模型在医疗、教学及科研方向的潜在价值,归纳总结实际应用过程中所遭遇的挑战以及改进的方向。

引文:笪倩,王书浩,王玟雯,等. 大模型时代下的病理人工智能进展与挑战[J]. 中华病理学杂志,2025,54(03):305-309.
1病理大模型概述

病理大模型是指在病理领域应用的大模型,通过对大规模病理数据进行训练,有效地辅助病理诊断、特征分析和医学决策。病理学大模型通常可分为三类:语言模型、图像模型和多模态模型(如语言-图像模型)。

  • 语言模型主要处理文本,在病理学应用中,主要用于信息提取、知识问答、归纳总结以及报告文字填充等任务。
  • 图像模型则基于病理学图像构建基础大模型,对病理图像进行特征编码,将图像转化为特征值,以用于后续基于图像的下游任务建模,比如肿瘤区域识别、良恶性分类或分级、预后预测、定量分析等。
  • 多模态模型,例如语言-图像模型,通过配对的病理图像和病理报告文本进行训练,可进行跨模态应用任务,如基于图片的文字问答等。

2023年以来随着组织病理学与分子病理学的迅猛发展,加上计算机视觉及生物信息学等方法学的创新突破,全球已发布了PLIP、Virchow、CONCH、UNI 、Prov‑GigaPath 、PRISM 、PathChat等多个大模型。

文章配图2

图1 病理大模型概况

2病理大模型概述

病理大模型的研发路径涵盖数据预处理、模型构建、算法优化、算力集成以及下游任务微调等诸多环节。大模型在数据集、算法、算力及合作模式等方面均体现诸多全新的趋势。

  • 数据|大模型训练数据集巨大且数据分散

    大模型训练涉及千万亿字节(Petabyte,PB)级以上甚至数百万亿像素级的病理图像及文本信息,多模态、跨尺度、宽病种的样本数据,为性能提升奠定基础。

  • 算法|大模型的算法结构具有高度的可拓展性

    大型常采用自监督学习策略如DINO、DINOv2,允许在无标签数据的情况下进行训练,极大地扩展可用的数据来源降低对人工标注数据的需求,增强模型的泛化能力。

  • 算力|训练算力呈分布式并行态势

    大模型训练基于分布式及并行化计算架构,结合模型加数据并行的策略构建大算力集群系统。

  • 合作模式|团队分工协作

自监督病理大模型先对大规模无标注数据预训练,引入下游任务后用小样本微调,涉及数据处理、算法构建和算力支撑,促使多团队协作。

文章配图2

图2 病理大模型研发工作流程

3病理大模型的优势
  • 数据层面,人工智能大模型可高效处理多维海量数据,融合多模态数据,包括文本、WSI图像、基因组学等,正交信息模态改善医学数据关联,提供更准临床轨迹和预后。
  • 算法层面,一方面大模型从视觉编码器向视觉-语言模型发展;另一方面大模型用零样本分类能力(zero-shot)满足多个下游任务需求。
4病理大模型的应用场景

病理大模型在下游任务中有卓越表现,主要方向有:

  • 癌症分型诊断。
  • 预测肿瘤相关生物标志物。
  • 预测疾病预后及患者生存。
  • 多模态检索和自动病理图像报告生成。
  • 多模态生成式人工智能助手。
  • 少样本、零样本下游任务。
5病理大模型的局限与挑战
  • 训练数据集

    数据收集、处理和使用面临诸多挑战,如病理扫描仪图像格式不统一、训练数据量非标准且不平衡、数据类型多、标注成本高等,导致数据要素价值未充分体现,阻碍发展。

  • 训练成本

    病理大模型预训练阶段研发和部署成本极高,需要庞大计算资源、硬件部署及系统维护,经济成本高昂并消耗大量能源,病理大模型最低支撑硬件标准为 8 张 32G显存的英伟达V100。

  • 大模型自身缺陷

    1)模型对病理多样本数据泛化能力的不足;2)病理大模型决策过程中模型可解释性并不透明;3)模型准确性和稳定性受数据影响;4)大模型“幻觉”;5)大模型准确度量性能和安全性评估方案尚不够全面。

  • 大模型法规

    医师应平衡大模型辅助与临床技能,避免过度依赖,因模型更新滞后于医学进展,可能导致诊断偏差。

6病理大模型的未来展望

病理大模型未来有望借全生命周期健康数据管理拓展医疗空间,体现在:

  • 多模态数据整合与跨学科融合,提供全面诊断与治疗建议,整合基因组数据实现精准医疗;
  • 个性化精准医疗,依患者情况定制方案,提升疗效与生活质量;
  • 实时动态监测病理过程,及时调整方案,监测病理图像预测旧病复发风险;
  • 作为教育培训工具,增强技能知识,模拟诊断提供案例反馈,交互式学习提升效果;
  • 全球健康与防控方面,分析病理数据,揭示趋势与风险,为政策制定和预防提供依据,跨地区应用促健康公平。

文章配图3

学术会议