Lung-R1: 一种知识图谱引导的肺部诊断推理大语言模型

arXiv cs.AI 2026/06/11 04:00 论文

pulmonary-diagnosis knowledge-graph large-language-model medical-ai reasoning emr reinforcement-learning

摘要

本文介绍了LungKG，这是第一个结构化的肺部知识图谱，以及Lung-R1，这是一个通过知识图谱约束推理和强化学习训练的大语言模型，用于从电子病历中进行肺部诊断推理。Lung-R1-14B在电子病历诊断上达到了最先进的性能。

arXiv:2606.11675v1 公告类型：新发布摘要：诊断肺部疾病需要整合多种异质性证据，同时应对表型变异和不同疾病之间的重叠。尽管大语言模型在肺部知识问答和信息处理任务上取得了进展，但可靠的肺部诊断需要基于电子病历证据的、针对特定患者的关系感知推理，而非孤立的知识回忆。我们将这种肺部知识与病例级诊断推理之间的差距定义为“肺部知识到诊断的鸿沟”。为解决这一问题，我们引入了LungKG，这是第一个用于诊断知识组织和基于记录推理的结构化肺部知识图谱。LungKG包含59,038个节点和164,308条边，涵盖15种实体类型和112种关系类型，既可作为可复用的肺部知识资源，也是LungKG引导的模型适配的基础。基于LungKG，我们提出了Lung-R1，这是一个通过知识图谱约束推理链构建和知识图谱引导的强化学习训练的LungKG引导的肺部大语言模型。在20个系统的评估中，Lung-R1-14B在Choice、Pulmonary-QA和EMR Diagnosis上达到了最先进的性能，EMR诊断分数达到4.3583，超出最强的非Lung-R1基线0.1476分。这些结果证明了LungKG引导的训练在基于EMR的肺部诊断中的价值。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:48

# 面向肺部诊断推理的知识图谱引导大语言模型  
来源：https://arxiv.org/html/2606.11675  

Haoyang Zeng¹\*, Yuanxi Fu¹\*, Rongzhen Li²\*, Yuming Yang¹, Xiao Sun¹, Jingwang Huang¹ Gujie Shao¹, Guohui Xiang², Quan Lu², Dongfan Ye³, Xuetao Chen³, Jiang Zhong¹†, Kaiwen Wei¹†, Zhi Xu³†  
¹重庆大学计算机学院，重庆，中国  
²马上金融人工智能研究院  
³陆军军医大学信息处  
zenghy@stu\.cqu\.edu\.cn (https://arxiv.org/html/2606.11675v1/mailto:[email protected]), jiangzhong@cqu\.edu\.cn (https://arxiv.org/html/2606.11675v1/mailto:[email protected]), weikaiwen@cqu\.edu\.cn (https://arxiv.org/html/2606.11675v1/mailto:[email protected]), xuzhihxk@tmmu\.edu\.cn (https://arxiv.org/html/2606.11675v1/mailto:[email protected])  

###### 摘要  
肺部疾病的诊断需要整合异质性证据，同时需应对表型变异以及跨疾病重叠。尽管大语言模型（LLMs）在肺部知识问答（QA）和信息处理任务上取得了进展，但可靠的肺部诊断需要针对患者个体、基于关系的推理，该推理需以电子病历（EMR）证据为依据，而非孤立的知识回忆。我们将肺部知识与病例级诊断推理之间的这种差距定义为“肺部知识到诊断的鸿沟”。为弥补这一鸿沟，我们引入LungKG——首个用于诊断知识组织和基于病历推理的结构化肺部知识图谱。LungKG包含59,038个节点和164,308条边，涵盖15种实体类型和112种关系类型，既作为可复用的肺部知识资源，又作为LungKG引导模型适配的基础。基于LungKG，我们提出Lung-R1，一种通过KG约束的推理链构建和KG引导的强化学习训练而成的肺部LLM。在20个系统的评估中，Lung-R1-14B在选择题、肺部问答和EMR诊断任务上均达到最优性能，EMR诊断得分为4.3583，超越最强非Lung-R1基线0.1476分。这些结果证明了基于LungKG引导的训练对于EMR肺部诊断的价值。  

![[Uncaptioned image]](https://arxiv.org/html/2606.11675v1/figures/logo.png)  

Lung-R1: 面向肺部诊断推理的知识图谱引导大语言模型  
Haoyang Zeng¹\*, Yuanxi Fu¹\*, Rongzhen Li²\*, Yuming Yang¹, Xiao Sun¹, Jingwang Huang¹, Gujie Shao¹, Guohui Xiang², Quan Lu², Dongfan Ye³, Xuetao Chen³, Jiang Zhong¹†, Kaiwen Wei¹†, Zhi Xu³†  
¹重庆大学计算机学院，重庆，中国  
²马上金融人工智能研究院  
³陆军军医大学信息处  
zenghy@stu\.cqu\.edu\.cn (https://arxiv.org/html/2606.11675v1/mailto:[email protected]), jiangzhong@cqu\.edu\.cn (https://arxiv.org/html/2606.11675v1/mailto:[email protected]), weikaiwen@cqu\.edu\.cn (https://arxiv.org/html/2606.11675v1/mailto:[email protected]), xuzhihxk@tmmu\.edu\.cn (https://arxiv.org/html/2606.11675v1/mailto:[email protected])  

参见图注  
图1: EMR诊断任务上的性能对比。Lung-R1在7B/14B规模下均达到最优性能。  

## 1 引言  
肺部疾病的诊断需要整合来自临床、放射学、功能学和病理学的异质性证据（Raghu et al., 2022 (https://arxiv.org/html/2606.11675#bib.bib8); Ryerson et al., 2025 (https://arxiv.org/html/2606.11675#bib.bib22); Delaney et al., 2024 (https://arxiv.org/html/2606.11675#bib.bib23); Khor et al., 2023 (https://arxiv.org/html/2606.11675#bib.bib24)）。这一任务因肺部疾病显著的临床表型变异以及临床和放射学表现的跨疾病重叠¹¹¹WHO: 慢性呼吸系统疾病 (https://www.who.int/health-topics/chronic-respiratory-diseases) 而变得更加复杂（Bender et al., 2024 (https://arxiv.org/html/2606.11675#bib.bib44)）。这些特性使得肺部诊断成为评估大语言模型是否能够支持临床推理的挑战性场景（Ahsan et al., 2024 (https://arxiv.org/html/2606.11675#bib.bib7)）。现有的肺部AI资源在知识问答、放射学理解、多模态影像和信息抽取方面推动了肺部临床智能的发展（Bae et al., 2023 (https://arxiv.org/html/2606.11675#bib.bib37); Rocha et al., 2019 (https://arxiv.org/html/2606.11675#bib.bib38)）。然而，肺部诊断需要针对患者个体的推理，即通过临床有意义的诊断关系将观察到的证据映射到疾病假设上。因此，在肺部知识和信息处理任务上的优异表现并不能直接证明具备可靠的个体化诊断推理能力。我们将这种不匹配称为“肺部知识到诊断的鸿沟”：即知识导向的医学训练与病例导向的肺部诊断之间的差距。在这种训练设置中，肺部事实通常以考试题、问答对或孤立文本指令的形式呈现；而在临床实践中，同样的知识必须作为相互依赖的证据链应用于特定患者病历。因此，在肺部知识任务上的强表现并不必然意味着可靠的基于病历的推理（Wang et al., 2025 (https://arxiv.org/html/2606.11675#bib.bib13); Gao et al., 2023 (https://arxiv.org/html/2606.11675#bib.bib14); Chandak et al., 2023 (https://arxiv.org/html/2606.11675#bib.bib6)）。为应对这一挑战，我们构建了LungKG，一个明确针对肺部诊断推理和模型适配的结构化肺部知识图谱。LungKG包含59,038个节点和164,308条边，涵盖15种实体类型和112种关系类型，将肺部疾病、症状、病原体、检查、影像学发现、药物、治疗以及诊断相关证据组织为类型化、有向的关系。LungKG使肺部诊断关系明确化，既可作为可复用的知识资源，又作为LungKG引导模型适配的结构基础。此外，考虑到现有大语言模型缺乏将肺部关系应用于患者个体电子病历证据的机制，我们引入了Lung-R1，一个LungKG引导的肺部LLM系列，旨在将结构化肺部知识转化为基于患者个体EMR证据的诊断导向推理。Lung-R1通过两阶段框架训练。  

首先，在监督微调阶段，**KG约束的推理链构建**利用LungKG生成基于图谱的思维链监督信号，并与EMR诊断监督相结合，以连接结构化肺部知识与真实的临床语言以及从病历到诊断的目标。  

其次，在**KG引导的强化学习**阶段，基于KG的奖励将模型输出与诊断正确性、图谱忠实度以及关系/路径一致性对齐。  

为评估Lung-R1，我们构建了一个涵盖选择题、肺部问答和EMR诊断的肺部评估套件，并对20个系统进行了基准测试。除非特别说明，Lung-R1的主要结果指使用完整知识图谱问答（KGQA）和EMR数据、经过两阶段SFT加KG引导RL管道训练的CoT模型。它在三项主要指标上取得了最强性能：选择题准确率67.60%，肺部问答得分4.416，EMR诊断得分4.3583。如图1所示，其EMR诊断得分比最强非Lung-R1基线Claude-Sonnet-4.5高出0.1476分。  

我们的贡献可总结如下：  
(1) 我们构建了**LungKG**，首个面向诊断导向肺部推理的结构化肺部知识图谱。它包含59,038个节点、164,308条边、15种实体类型和112种关系类型，将关键肺部实体和诊断证据组织为类型化、有向的关系。  
(2) 我们开发了**Lung-R1**，一个LungKG引导的肺部LLM，通过KG约束的CoT监督和KG引导的强化学习进行训练，以对齐诊断正确性、图谱忠实度以及关系/路径一致性。  
(3) 我们构建了一个留出的肺部评估套件，涵盖选择题、肺部问答和EMR诊断。20个系统的对比表明，Lung-R1在主要指标上达到最优性能，尤其是在基于病历的肺部诊断方面。  

参见图注  
图2: LungKG引导的Lung-R1管道概览：(a) 基于已验证肺部资源构建LungKG；(b) 用于Lung-R1适配的KG约束CoT构建、SFT和KG引导RL；(c) 针对20个系统在选择题、肺部问答和EMR诊断任务上的肺部评估。  

## 2 相关工作  
**肺部AI资源与医学LLM评估。** 现有的肺部AI资源主要关注特定证据类型或任务，包括胸部影像解读、呼吸音分析以及结合放射学证据的多模态EHR推理（Bae et al., 2023 (https://arxiv.org/html/2606.11675#bib.bib37); Rocha et al., 2019 (https://arxiv.org/html/2606.11675#bib.bib38)）。它们捕捉了重要的肺部信号，但并未将病原体证据、影像/检查发现、禁忌症、治疗风险以及患者个体背景组织成面向关系感知的监督信号，以支持基于病历的诊断。医学LLM基准，包括MedQA（Jin et al., 2021 (https://arxiv.org/html/2606.11675#bib.bib31)）、MedMCQA（Pal et al., 2022 (https://arxiv.org/html/2606.11675#bib.bib35)）、PubMedQA（Jin et al., 2019 (https://arxiv.org/html/2606.11675#bib.bib32)）、MMLU-health（Hendrycks et al., 2021 (https://arxiv.org/html/2606.11675#bib.bib33)）和CMB（Wang et al., 2024 (https://arxiv.org/html/2606.11675#bib.bib34)），主要评估考试式知识或生物医学问答，而临床评估则涉及现实任务和鉴别诊断（Arora et al., 2025 (https://arxiv.org/html/2606.11675#bib.bib46); Bedi et al., 2026 (https://arxiv.org/html/2606.11675#bib.bib47); Hager et al., 2024 (https://arxiv.org/html/2606.11675#bib.bib45); McDuff et al., 2025 (https://arxiv.org/html/2606.11675#bib.bib48)）。像MIMIC-IV（Johnson et al., 2023 (https://arxiv.org/html/2606.11675#bib.bib36)）这样的EHR资源提供了真实的临床语言，但缺乏用于图谱引导监督和KG引导奖励的明确肺部诊断关系。  

#### **知识导向的医学适配与对齐。** 医学语言模型已从领域自适应预训练发展到指令微调，包括BioBERT（Lee et al., 2020 (https://arxiv.org/html/2606.11675#bib.bib25)）、ClinicalBERT（Alsentzer et al., 2019 (https://arxiv.org/html/2606.11675#bib.bib27)）、Med-PaLM（Singhal et al., 2023 (https://arxiv.org/html/2606.11675#bib.bib28)）、PMC-LLaMA（Wu et al., 2023 (https://arxiv.org/html/2606.11675#bib.bib29)）和MEDITRON（Chen et al., 2023 (https://arxiv.org/html/2606.11675#bib.bib30)）。检索增强生成（RAG）（Lewis et al., 2020 (https://arxiv.org/html/2606.11675#bib.bib39)）和GraphRAG（Edge et al., 2024 (https://arxiv.org/html/2606.11675#bib.bib43); Soman et al., 2024 (https://arxiv.org/html/2606.11675#bib.bib16); Zuo et al., 2025 (https://arxiv.org/html/2606.11675#bib.bib15)）通过推理时检索改进事实基础，而思维链提示（Wei et al., 2022 (https://arxiv.org/html/2606.11675#bib.bib40)）、STaR（Zelikman et al., 2022 (https://arxiv.org/html/2606.11675#bib.bib41)）和Self-Instruct（Wang et al., 2023 (https://arxiv.org/html/2606.11675#bib.bib42)）则生成或优化推理监督。然而，这些方法并未将结构化肺部关系作为训练时的监督和奖励对齐信号。相比之下，Lung-R1使用**LungKG**作为诊断导向的基础，用于基于图谱的CoT SFT和KG引导的强化学习，将肺部知识基础从推理时访问转向训练时推理对齐。  

## 3 LungKG  
我们引入**LungKG**，首个面向肺部诊断导向推理和模型适配的结构化肺部知识图谱。如图2(a)所示，LungKG旨在解决“肺部知识到诊断的鸿沟”，通过将孤立的肺部事实重新组织为类型化、有向的关系，以支持诊断导向推理（Anuya et al., 2025 (https://arxiv.org/html/2606.11675#bib.bib11); Zhou et al., 2026 (https://arxiv.org/html/2606.11675#bib.bib10); Abu-Salih et al., 2023 (https://arxiv.org/html/2606.11675#bib.bib9)）。传统的QA监督将医学知识呈现为孤立的问答对，而肺部诊断需要连接分布式证据，包括症状、影像和检查发现、病原体线索、禁忌症、治疗以及患者个体背景，形成连贯的推理路径。因此，LungKG作为肺部知识资源与Lung-R1适配之间的中间基础，如图2(b)所示。我们从多种肺部资源（包括 curated 知识、临床指南和考试材料）构建LungKG。其标准和可靠的构建由我们的标注团队和审查协议（附录A.3）保证。我们使用DeepSeek-R1（DeepSeek-AI, 2025a）进行实体/关系抽取、归一化和候选图谱构建。实体被统一为标准肺部概念，以消除同义词、缩写和文本变体导致的重复。关系被转换为类型化的有向边，例如疾病-症状、病原体-感染、检查-诊断、药物-禁忌症和治疗-条件。临床医生主导的质量控制、去重、关系映射和一致性检查移除了噪声证据。标注一致性评估显示，命名实体识别的F值一致率为88.2%，实体关系标注为83.8%，支持LungKG构建的可靠性。一致性定义和匹配规则见附录A.5的Px1部分，更多构建细节见附录A.5。最终的LungKG包含59,038个节点和164,308条边，覆盖15种实体类型和112种关系类型。表1总结了LungKG的规模、实体清单、诊断关系覆盖范围以及下游训练角色。LungKG并非旨在成为所有医学知识的完整本体，而是为图谱引导监督和KG引导奖励构建而设计的一个肺部领域基础。  

| 图谱规模与诊断角色 | 内容/角色 |
| --- | --- |
| 规模 | 59,038个节点；164,308条边 |
| 模式 | 15种实体类型；112种关系类型 |
| 诊断关系 | 疾病-症状；病原体-感染；检查/影像-诊断；药物-禁忌症；治疗-条件 |
| 训练角色 | 用于SFT的KG约束CoT构建；用于RL的KG引导奖励 |
| **实体类型清单** | **节点数** |
| 西药 | 11,544 |
| 病原体 | 2,804 |
| 其他治疗 | 10,976 |
| 指南推荐 | 1,928 |
| 疾病 | 8,448 |
| 中成药 | 1,446 |
| 药物 | 6,481 |
| 诊疗技术/设备 | 1,158 |
| 症状 | 5,120 |
| 解剖部位 | 672 |
| 检查 | 4,098 |
| 临床科室 | 538 |
| 流行病学 | 3,090 |
| 中草药 | 400 |
| 手术治疗 | 335 |

表1: LungKG的核心统计数据和实体清单。  
LungKG强调对肺部诊断至关重要的关系类型：(1) 病原体关系，

Lung-R1: 一种知识图谱引导的肺部诊断推理大语言模型

相似文章

一种专门用于加速罕见病诊断的推理型大型语言模型：一项随机AI医生辅助试验

医学中的语义推理：知识图谱在五个关键领域的作用

MHGraphBench：基于知识图谱的大语言模型心理健康知识基准测试

我构建了一个开源知识图谱管道，结合混合检索以改进LLM多跳推理 [P]

@pallavishekhar_: 大型推理模型 (LRMs) 阅读链接：https://outcomeschool.com/blog/large-reasoning-models…

提交意见反馈