未来媒体网络协同创新中心

新闻动态

当前位置 >> 新闻动态 >> 中心动态

中心动态

王延峰教授团队在Nature Communications发表胸部X-ray疾病诊断基础模型研究成果

近日，上海交通大学与上海人工智能实验室联合团队的研究成果 Knowledge-enhanced Visual-Language Pre-training on Chest Radiology Images在Nature Communications杂志在线发表，该研究聚焦医学人工智能，提出了首个基于领域知识增强的Chest X-ray的基础模型 KAD（Knowledge-enhanced Auto Diagnosis Model）。

Knowledge-enhanced Visual-Language Pre-training on Chest Radiology Images

近年来，基于大数据预训练的多模态基础模型 (Foundation Model) 在自然语言理解和视觉感知方面展现出了前所未有的进展，在各领域中受到了广泛关注。在医疗领域中，由于其任务对领域专业知识的高度依赖和其本身细粒度的特征，通用基础模型在医疗领域的应用十分有限。因此，如何将医疗知识注入模型，提高基础模型在具体诊疗任务上的准确度与可靠性，是当前医学人工智能研究领域的热点。

KAD 的模型架构

在此背景之下，上海交通大学与上海人工智能实验室联合团队探索了基于医学知识增强的基础模型预训练方法，发布了首个胸部X-ray 的基础模型，即 KAD（Knowledge-enhanced Auto Diagnosis Model）。该模型在大规模医学影像与放射报告数据上进行预训练，采用文本编码器对高质量医疗知识图谱进行隐空间嵌入，进一步利用视觉 - 语言模型联合训练实现了知识增强的表征学习。无需额外标注，该模型即可直接应用于下游疾病诊断任务，为人工智能辅助医疗诊断提供了新的技术路线参考。

KAD 在 CheXpert 数据集上与基线模型以及放射科医生的比较

医疗领域的专业性，导致通用基础模型在真实临床诊疗场景下的应用十分受限。KAD 模型为基于知识增强的基础模型预训练提供了切实可行的解决方案。KAD 的训练框架只需要影像 - 报告数据，不依赖于人工注释，在下游胸部 X-ray 诊断任务上，无需任何监督微调，即达到与专业放射科医生相当的精度；支持开放集疾病诊断任务，同时以注意力图形式提供对病灶的位置定位，增强模型的可解释性。值得注意的是，该研究提出的基于知识增强的表征学习方法并不局限于胸部 X-ray，可广泛适用于医学不同器官和模态，对于促进医疗基础模型在临床的应用和落地有重要意义。

KAD的定位结果可视化

论文第一作者为上海交通大学电信学院未来媒体网络协同创新中心博士生张小嫚，通讯作者是课题组王延峰教授和谢伟迪副教授。王延峰教授团队长期从事人工智能算法及其在媒体和医疗等方面应用的研究，在TPAMI、TIP、CVPR、ICML等国际知名期刊和会议发表多篇论文，相关研究得到了国家重点研发计划课题、科创“2030”—新一代人工智能重大项目及国家自然科学基金等项目的资助。

论文链接：https://rdcu.be/dhWz0