RAG4Outcome: 一种用于慢性骨髓炎预后预测的检索增强多模态框架

arXiv cs.AI 2026/05/25 04:00 论文

摘要

提出RAG4Outcome，一种整合多模态临床数据（PET-CT报告、手术记录、随访笔记）的检索增强生成框架，用于改善慢性骨髓炎的预后预测，增强可解释性和临床可靠性。

arXiv:2605.22833v1 Announce Type: cross 摘要：慢性骨髓炎因其高复发风险和复杂的术后恢复轨迹，带来了巨大的预后挑战。传统评估通常依赖人工评分系统，这限制了临床实践的可扩展性、效率和一致性。此外，临床数据的异质性对当前需要对齐输入和大量标注数据集的多模态学习方法提出了挑战。在这项工作中，我们提出了RAG4Outcome，一种用于慢性骨髓炎预后预测的检索增强生成（RAG）框架。我们的方法将多模态临床数据，包括PET-CT影像报告、结构化手术和诊断记录以及非结构化随访笔记，整合到一个统一的预测管线中。通过结合领域特定的检索库和专家引导的提示，该框架实现了更具可解释性、基于证据且临床可靠的预后预测。在实际病例上的初步结果显示出有前景的有效性和临床一致性，突显了RAG4Outcome在AI辅助感染管理和术后决策支持中的潜力。

查看原文

查看缓存全文

缓存时间: 2026/05/25 09:00

# 一种用于慢性骨髓炎预后预测的检索增强多模态框架
来源：https://arxiv.org/html/2605.22833

裴涵  
上海交通大学医学院附属第六人民医院  
上海，中国  
[email protected]  

陈吉志展  
伦敦大学学院  
伦敦，英国  
[email protected]  

王洋  
上海第六人民医院  
上海，中国  
[email protected]  

刁晓磊*  
伦敦大学学院  
伦敦，英国  
[email protected]  

郑宪友*  
上海交通大学医学院附属第六人民医院  
上海，中国  
[email protected]  

程鹏飞*  
上海交通大学医学院附属第六人民医院  
上海，中国  
[email protected]  

###### 摘要

慢性骨髓炎因其高复发风险和复杂的术后恢复轨迹，面临显著的预后挑战。传统评估通常依赖人工评分系统，这在临床实践中限制了可扩展性、效率和一致性。此外，临床数据的异质性对当前需要对齐输入和大量标注数据集的多模态学习方法构成了挑战。在这项工作中，我们提出了RAG4Outcome，一个用于慢性骨髓炎预后预测的检索增强生成(RAG)框架。我们的方法将多模态临床数据（包括PET-CT影像报告、结构化手术和诊断记录以及非结构化随访笔记）整合到一个统一的预测流程中。通过结合特定领域的检索语料库与专家引导的提示工程，该框架能够实现更具可解释性、基于证据且临床可信的预后预测。在真实世界病例上的初步结果显示了有希望的有效性和临床一致性，突显了RAG4Outcome在AI辅助感染管理和术后决策支持方面的潜力。  
11footnotetext:通讯作者。

## 1 引言

慢性骨髓炎是一种极具挑战性的骨科感染，以高复发风险和复杂的术后恢复轨迹为特征[27 (https://arxiv.org/html/2605.22833#bib.bib31),17 (https://arxiv.org/html/2605.22833#bib.bib8),18 (https://arxiv.org/html/2605.22833#bib.bib9)]。准确的预后预测对于制定个性化治疗方案和确保长期护理至关重要[8 (https://arxiv.org/html/2605.22833#bib.bib11)]。然而，目前的临床评估方法通常依赖专家定义的评分系统和人工评估流程[5 (https://arxiv.org/html/2605.22833#bib.bib10)]，这些方法劳动密集、耗时，并且难以在不同医疗环境中进行扩展。这限制了它们在现实场景中用于持续监测和早期风险分层的有效性。在实践中，临床医生必须对广泛异构的数据类型[13 (https://arxiv.org/html/2605.22833#bib.bib12),31 (https://arxiv.org/html/2605.22833#bib.bib38),30 (https://arxiv.org/html/2605.22833#bib.bib39)]（包括医学影像报告、结构化电子健康记录(EHR)和非结构化报告）进行推理，以评估患者的恢复和复发风险。这些多模态数据源通常不完整、异步且松散对齐，给传统的多模态学习模型[32 (https://arxiv.org/html/2605.22833#bib.bib13),1 (https://arxiv.org/html/2605.22833#bib.bib14)]带来了重大挑战。现有基于AI的术后预测方法通常依赖于严格的数据对齐，需要大量标注良好的多模态数据[1 (https://arxiv.org/html/2605.22833#bib.bib14)]，并且往往在真实临床环境[9 (https://arxiv.org/html/2605.22833#bib.bib15),12 (https://arxiv.org/html/2605.22833#bib.bib16)]中泛化能力不佳。此外，诸如感染类型、手术时机、代谢生物标志物和症状演变等关键指标通常嵌入在非结构化临床文本中，难以提取和解释。

为了应对上述挑战，我们提出了RAG4Outcome，一个专为慢性骨髓炎预后预测设计的检索增强多模态框架。我们的方法将多种形式的临床数据（包括PET-CT[11 (https://arxiv.org/html/2605.22833#bib.bib30)]影像报告、结构化EHR、诊断和手术报告以及随访文档）整合到一个统一的预测模型中。一个核心的检索增强生成(RAG)模块集成从特定领域语料库检索到的外部医学知识，以生成基于证据的结果预测。这种设计能够在不要求严格数据对齐或详尽标注[33 (https://arxiv.org/html/2605.22833#bib.bib17),1 (https://arxiv.org/html/2605.22833#bib.bib14),12 (https://arxiv.org/html/2605.22833#bib.bib16),16 (https://arxiv.org/html/2605.22833#bib.bib18)]的情况下实现可靠的生成。为增强临床可解释性，我们纳入了骨科专家认为与慢性骨髓炎恢复结果最相关的12项预后指标。这些指标引导结构化提示的构建，并支持针对性的检索和推理。我们使用来自第三医疗中心治疗的匿名慢性骨髓炎患者的真实世界数据集111该数据集在机构伦理批准下收集，确保患者隐私和数据治理合规。进行验证，每位患者均有3-6年的随访。典型患者的案例研究表明，RAG4Outcome与临床评分系统高度一致，同时提供透明、有证据支撑的推理依据。这项工作为开发可靠、可解释且可扩展的AI工具（用于感染预后和手术决策支持）迈出了有希望的一步。我们的目标并非取代已有的临床评分系统，而是通过一个透明的检索支持框架对其进行补充，该框架能够综合异质性证据，并在真实世界的术后评估中为临床医生提供辅助。我们的贡献总结如下：

- •我们提出了RAG4Outcome，一个用于骨髓炎临床预后预测的检索增强多模态框架，能够将异质性和部分缺失的临床数据整合到一个统一模型中。
- •我们设计了一个可解释的预后框架，利用十二个专家定义的指标和一个精选的医学检索语料库从多模态输入中提取相关临床线索并构建结构化提示。
- •我们使用真实患者数据进行病例级评估，证明了与已建立的评分系统的强一致性以及临床实用性。

## 2 相关工作

### 2.1 骨髓炎预后评估

慢性骨髓炎的预后评估传统上依赖于为骨科和感染相关结果监测设计的结构化评分系统。最广泛使用的量表之一是下肢功能量表(LEFS)，这是一种患者报告的结果测量工具，用于评估下肢功能[2 (https://arxiv.org/html/2605.22833#bib.bib19),7 (https://arxiv.org/html/2605.22833#bib.bib22),15 (https://arxiv.org/html/2605.22833#bib.bib23)]。Enneking系统评估肌肉骨骼肿瘤患者的功能状态，并已适用于治疗后结果评估[28 (https://arxiv.org/html/2605.22833#bib.bib20)]。Cierny-Mader系统根据解剖类型和宿主生理状态评估慢性骨髓炎病例，并广泛用于临床风险分层[17 (https://arxiv.org/html/2605.22833#bib.bib8),6 (https://arxiv.org/html/2605.22833#bib.bib21)]。社区中还引入了不同的学习策略来优化基于深度学习的方法的性能[19 (https://arxiv.org/html/2605.22833#bib.bib34),20 (https://arxiv.org/html/2605.22833#bib.bib35),4 (https://arxiv.org/html/2605.22833#bib.bib36),3 (https://arxiv.org/html/2605.22833#bib.bib37)]。虽然这些系统具有临床价值，但它们需要人工解读，并表现出主观性，限制了可扩展性和实时应用。此外，研究表明，当前的评分方法不足以支持自动化或持续的预后监测[17 (https://arxiv.org/html/2605.22833#bib.bib8)]，凸显了对AI驱动的、可解释的替代方案的需求。

### 2.2 医学AI中的语言模型与检索增强生成

大语言模型(LLMs)在医学文本理解、摘要和临床决策支持方面显示出潜力。BioGPT[14 (https://arxiv.org/html/2605.22833#bib.bib24)]和Med-PaLM[24 (https://arxiv.org/html/2605.22833#bib.bib25),25 (https://arxiv.org/html/2605.22833#bib.bib26)]在生物医学问答和基准挑战中表现出色。然而，LLMs容易出现事实错误，通常被称为幻觉[34 (https://arxiv.org/html/2605.22833#bib.bib27)]，尤其是在缺乏可靠上下文信息的场景中。为了缓解这一问题，引入了一种称为检索增强生成的混合架构，它将基于检索的证据与生成能力相结合。在临床环境中，RAG已被证明能够提高事实一致性、支持医学指南的解读，并降低幻觉风险[33 (https://arxiv.org/html/2605.22833#bib.bib17),10 (https://arxiv.org/html/2605.22833#bib.bib28),29 (https://arxiv.org/html/2605.22833#bib.bib40),21 (https://arxiv.org/html/2605.22833#bib.bib41)]。其中一些工作将知识库引入系统[23 (https://arxiv.org/html/2605.22833#bib.bib32),22 (https://arxiv.org/html/2605.22833#bib.bib33)]。Yang等人[12 (https://arxiv.org/html/2605.22833#bib.bib16)]将RAG应用于指南解读，并展示了其在事实正确性和临床医生一致性方面的改进。Xiong等人[33 (https://arxiv.org/html/2605.22833#bib.bib17)]建立了医学领域RAG的基准，并展示了其在证据感知推理任务中优于闭卷LLMs。最近的应用包括用于基于证据的诊断辅助的MedRAG[10 (https://arxiv.org/html/2605.22833#bib.bib28)]，以及一个基于零样本RAG的框架，用于从电子健康记录自动进行疾病表型分析，并以肺动脉高压作为案例研究[26 (https://arxiv.org/html/2605.22833#bib.bib29)]。通过将模型输出明确链接到检索到的证据，RAG增强了响应一致性和可信度，同时允许灵活集成异质性数据源，而无需输入对齐或模型重新训练。

## 3 提出方法

在本节中，我们介绍RAG4Outcome框架，这是一个检索增强的多模态系统，旨在支持慢性骨髓炎的临床预后预测。如图1 (https://arxiv.org/html/2605.22833#S3.F1)所示，提出的流程包括两个主要模块：(1) 信息提取模块，将多模态临床数据处理为可解释的文本表示；(2) 基于RAG的模块，利用大语言模型结合领域特定检索，进行基于证据的推理以进行结果预测。

图1：RAG4Outcome框架概述。该系统通过信息提取流程整合PET-CT报告、EHR手术记录和随访文档，然后应用基于RAG的模型进行患者级别的结果预测。

### 3.1 框架概述

给定一个慢性骨髓炎患者，提出的框架接收三种类型的多模态临床数据作为输入，包括PET-CT影像报告、结构化EHR（如诊断和手术记录）以及非结构化随访文档。这些异质性数据源由特定模态组件（医学图像处理器和记录处理器）处理，以生成连贯且可解释的文本块，每个文本块代表慢性骨髓炎专家定义的关键临床因素。提取的文本块用于构建患者特定的提示，随后传递给基于RAG的模块。在推理过程中，RAG从外部医学语料库中检索相关的领域特定证据，并生成关于患者状况的结构化摘要以及预后预测。最终输出包括患者状况的结构化摘要和一个描述恢复结果（包括优秀、良好、一般和差）的预后预测，以及基于患者数据和检索到的外部参考的支持性解释。与需要严格对齐的多模态输入的先前方法不同，RAG4Outcome支持异质性、异步和部分缺失的数据，而无需模态对齐。这是通过独立处理每个输入源并将其转换为适用于检索和推理的标准化语义表示来实现的。

### 3.2 信息提取模块

我们将一个患者病例表示为异质性临床文档的集合 D = {d₁, d₂, ..., dₙ}，其中每个 dᵢ 对应于以下模态之一：PET-CT影像报告、结构化手术或诊断EHR、以及非结构化随访文档。每种输入类型由特定模态的预处理器（即医学图像处理器或记录处理器）处理，以提取语义有意义的表示用于下游检索和生成。

**医学图像处理器**。PET-CT影像报告被解析为结构化文本字段，描述放射学发现和解剖标注。我们使用Qwen2.5-VL-3B从PET-CT图像及其自然语言报告中提取专家定义的指标。

**记录处理器**。手术、诊断和随访文档被分割成句子和章节。我们使用Qwen3-4B作为处理器，为与预定义预后指标相关的句子生成嵌入，从而实现有针对性的语义理解。每个文档块 dᵢ 通过预训练的领域特定编码器编码为密集向量表示：
hᵢ = Processor(dᵢ)   (1)
其中 hᵢ ∈ ℝᵈ 是文档块 dᵢ 的结果嵌入。注意，对于结构上期望但不可用的模态，缺失模态通过填充零向量 0 来处理。

### 3.3 基于RAG的模块

基于RAG的模块作为我们框架的核心推理引擎，整合结构化的患者数据和外部临床知识，以生成带有解释支持的预后预测。该模块包括三个关键组件：领域特定检索器、专家引导的预后模式以及检索增强生成模型。

**领域特定检索器**：为了提高事实一致性和医学相关性，我们构建了一个检索语料库 C = {c₁, c₂, ..., cₖ}，由精选的领域特定资源组成，包括：(1) 通用医学知识图谱，(2) 骨髓炎治疗和感染管理的临床指南，(3) 基于证据的术后结果研究，(4) 手术决策支持文档，以及 (5) 机构恢复方案和专家叙述。给定一个来自先前信息提取模块的输入患者表示 z，我们使用查询编码器 Eₓ 对其进行编码并检索。

RAG4Outcome: 一种用于慢性骨髓炎预后预测的检索增强多模态框架

相似文章

RAG-Anything：全能型 RAG 框架

SEMA-RAG：一种用于医学推理的自进化多智能体检索增强生成框架

MODE-RAG：流形异常诊断与基于能量的检索增强生成评估

评估检索增强生成与长上下文输入在电子健康记录临床推理中的比较

当检索无济于事：一项大规模生物医学 RAG 研究

提交意见反馈