MedGuideX:将可执行指南中的决策逻辑内化至大型语言模型用于临床推理

arXiv cs.AI 论文

摘要

MedGuideX 将临床实践指南转化为可执行的决策逻辑,以生成事实性和反事实性的问答数据用于训练医学大语言模型,在临床推理基准测试中实现了平均准确率相对提升 10.28%。

arXiv:2605.26567v1 公告类型:新 摘要:临床实践指南(CPGs)包含了基于证据的决策逻辑,临床医生通过评估患者变量、条件标准和推荐规则来应用这些逻辑。然而,现有方法通常将 CPGs 作为自由文本训练数据或检索源使用,未能充分利用其程序化决策结构。为了更好地利用这一结构,我们引入了一个基于指南的训练流程,将 CPG 推荐转化为可执行的临床决策逻辑,并利用它生成事实性和反事实性的问答数据。这些数据教会模型既掌握指南支持的决策,也了解在不同患者条件下决策如何变化。对医学大语言模型进行基于生成数据的训练后,得到了 MedGuideX。在四个临床推理基准测试中,MedGuideX 的平均准确率相对提升了 10.28%。医生评估进一步表明,MedGuideX 能更好地恢复临床医生编写的推理步骤,并在忠实度、有效性、完整性和清晰度方面生成医生更偏好的推理依据。总体而言,我们的结果表明,CPGs 中的可执行决策逻辑可转化为可扩展的监督信号,用于构建可靠的医学大语言模型。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:06

# MedGuideX: 将可执行指南中的决策逻辑内化到大语言模型中以实现临床推理 来源:https://arxiv.org/html/2605.26567 Yuhao Shen¹·², Lang Cao¹·¹, Simo Du³, Yuqing Wang³, Juexiao Zhou², Hao Peng¹, Yue Guo¹ ¹伊利诺伊大学厄巴纳-香槟分校 ²香港中文大学(深圳) ³阿尔伯特·爱因斯坦医学院 ###### 摘要 临床实践指南(CPGs)编码了基于证据的决策逻辑,临床医生通过评估患者变量、条件标准和推荐规则来应用这些逻辑。然而,现有方法通常将CPGs作为自由文本训练数据或检索源来使用,未能充分利用其程序化决策结构。为了更好利用这种结构,我们引入了一条基于指南的训练流程,将CPG推荐转化为可执行的临床决策逻辑,并利用该逻辑生成事实性和反事实性的问答数据。这些数据教会模型既掌握指南支持的决策,也理解决策在不同患者条件下如何变化。对医学LLM进行基于生成数据的后训练得到MedGuideX。在四个临床推理基准上,MedGuideX的平均准确率相对提升了10.28%。医生评估进一步表明,MedGuideX能更好地还原临床医生撰写的推理步骤,并在忠实性、有效性、完整性和清晰度方面生成医生更偏好的理由。总体而言,我们的结果表明,CPGs中的可执行决策逻辑可以转化为可扩展的监督信号,用于构建可靠的医学LLM。![[无标题图片]](https://arxiv.org/html/2605.26567v1/figures/medguidex.png)MedGuideX:将可执行指南中的决策逻辑内化到大语言模型中以实现临床推理 ## 1 引言 大语言模型(LLMs)Singh et al. (2025 (https://arxiv.org/html/2605.26567#bib.bib38)); Yang et al. (2025 (https://arxiv.org/html/2605.26567#bib.bib52))在医学领域展现出了强大潜力,包括电子健康记录理解、临床病例推理和医疗决策支持等Cao et al. (2026 (https://arxiv.org/html/2605.26567#bib.bib4)); Wu et al. (2025b (https://arxiv.org/html/2605.26567#bib.bib50)); Lai et al. (2025 (https://arxiv.org/html/2605.26567#bib.bib22))。然而,可靠的临床推理仍然具有挑战性。这需要模型整合异质的患者证据,应用领域知识,比较合理的临床决策,处理不确定性,并遵循基于证据的决策逻辑Bowen (2006 (https://arxiv.org/html/2605.26567#bib.bib2)); Nendaz and Perrier (2012 (https://arxiv.org/html/2605.26567#bib.bib31)); Sox et al. (2024 (https://arxiv.org/html/2605.26567#bib.bib39))。现有的医学LLM训练通常依赖于大规模医学语料库、临床笔记或病例报告Chen et al. (2023 (https://arxiv.org/html/2605.26567#bib.bib8)); Han et al. (2023 (https://arxiv.org/html/2605.26567#bib.bib15)); Labrak et al. (2024 (https://arxiv.org/html/2605.26567#bib.bib21)); Garcia-Gasulla et al. (2025 (https://arxiv.org/html/2605.26567#bib.bib11)); Wu et al. (2025b (https://arxiv.org/html/2605.26567#bib.bib50))。尽管有用,但这些数据源仅隐式地提供推理监督:它们通常噪声大、异质、不完整,且与临床医生在实践中使用的明确决策流程弱对齐Chen et al. (2024 (https://arxiv.org/html/2605.26567#bib.bib6)); Lai et al. (2025 (https://arxiv.org/html/2605.26567#bib.bib22)); Gu et al. (2025 (https://arxiv.org/html/2605.26567#bib.bib12)); Li et al. (2026 (https://arxiv.org/html/2605.26567#bib.bib24)); Yoo and Woo (2025 (https://arxiv.org/html/2605.26567#bib.bib54)); Yang et al. (2024 (https://arxiv.org/html/2605.26567#bib.bib53))。因此,模型可能获得广泛的医学知识,但未能学习到稳定且可泛化的临床决策逻辑。 临床实践指南(CPGs)提供了这种决策逻辑的天然来源。在临床实践中,临床医生通过识别患者变量、评估条件标准和遵循推荐规则来应用指南。因此,除了文本医学知识外,CPGs还编码了用于诊断、治疗和疾病管理的程序化决策结构。然而,现有的基于CPG的方法往往未能充分利用这种结构。检索增强或提示方法将CPGs视为外部知识源Schubert et al. (2025 (https://arxiv.org/html/2605.26567#bib.bib33)); Deng et al. (2026 (https://arxiv.org/html/2605.26567#bib.bib10)); Oniani et al. (2024 (https://arxiv.org/html/2605.26567#bib.bib32)); Li et al. (2023a (https://arxiv.org/html/2605.26567#bib.bib23)),而直接在指南文本上训练虽然让模型接触了内容,但并未显式表示使指南可操作的变量、条件和决策规则Staniek et al. (2025 (https://arxiv.org/html/2605.26567#bib.bib40)); Chen et al. (2023 (https://arxiv.org/html/2605.26567#bib.bib8))。因此,CPGs的内部决策逻辑作为医学LLM的可扩展监督信号仍未被充分利用(更多相关工作见附录B (https://arxiv.org/html/2605.26567#A2))。 为了更好地利用这种结构,我们提出了一条基于指南的后训练流程,用于构建具有更强临床推理能力的LLM。我们首先收集高质量、公开可用的CPGs,并将其推荐转化为可执行函数,这些函数表示结构化的临床决策逻辑。每个函数对患者变量进行操作并产生与指南一致的决策,从而能够进行受控的数据生成和自动验证。基于这些函数,我们生成事实性和反事实性的问答实例。事实性实例教会模型指南支持的决策,而反事实性实例则教会模型当关键患者条件改变时决策应如何变化。这一设计遵循了先前的发现,即反事实性推理可以提高模型的推理能力,并暴露出标准QA评估可能遗漏的失败情况Chen et al. (2025 (https://arxiv.org/html/2605.26567#bib.bib7)); You et al. (2026 (https://arxiv.org/html/2605.26567#bib.bib55)); Vashishtha et al. (2025 (https://arxiv.org/html/2605.26567#bib.bib46))。 使用这一流程,我们训练了MedGuideX,一个旨在内化基于指南的临床决策逻辑的医学LLM。具体来说,我们在生成的事实性和反事实性数据上,通过监督微调(SFT)和强化学习(RL)对基座模型进行后训练。在四个临床推理基准上的实验表明,MedGuideX相比其基座模型有显著提升,并在开源医学LLM中取得了强劲的性能。与Qwen3.5-9B相比Yang et al. (2025 (https://arxiv.org/html/2605.26567#bib.bib52)),MedGuideX-9B在MedCaseReasoningWu et al. (2025b (https://arxiv.org/html/2605.26567#bib.bib50))、MedQAJin et al. (2021 (https://arxiv.org/html/2605.26567#bib.bib19))、MIMIC-CDM-FIHager et al. (2024 (https://arxiv.org/html/2605.26567#bib.bib14))和ER-ReasonMehandru et al. (2025 (https://arxiv.org/html/2605.26567#bib.bib29))上分别实现了26.64%、9.45%、4.41%和10.51%的相对提升。值得注意的是,较大的相对增益出现在准确率较低的基准(MedCaseReasoning和ER-Reason)上,这表明基于指南的监督信号对于具有挑战性的推理场景尤为有用。医生评估进一步表明,MedGuideX能更好地还原临床医生撰写的推理步骤,并在忠实性、有效性、完整性和整体质量方面生成医生更偏好的理由。 总之,我们的贡献如下: - •我们提出了一条基于指南的后训练流程,将CPGs转化为可执行的临床决策逻辑,并利用其生成事实性和反事实性QA监督信号。 - •我们训练了MedGuideX,一个通过SFT和RL内化基于指南的临床决策逻辑的医学LLM。 - •我们在四个医学推理基准上进行了实验,结果表明MedGuideX优于基座模型和类似大小的医学LLM,同时生成了更高质量的临床理由。 参见标题图1:MedGuideX概览。顶部:我们将原始CPGs通过中间决策树转化为可执行的Python函数`f`,然后采样临床变量`X`并执行`f(X)`以确定性地标记事实性和反事实性QA实例。底部:我们在混合QA数据上对LLM进行SFT,在事实性QA数据上进行RL,其中重新执行`f`提供奖励。这一设计将每条指南转化为一个可执行的验证器,将其决策逻辑同时用于标签和奖励。 ## 2 预备知识 我们将一条指南推荐定义为从完整CPG中提取的可操作临床决策规则。一条推荐指定了在特定患者条件下应如何做出临床决策,例如诊断、治疗、筛查或疾病管理。例如,一条推荐可能指出,症状严重的患者应被转诊进行进一步评估。 我们将每条指南推荐形式化定义为函数`Y = f(X), f: X → Y`,其中`X = (x1, ..., xn) ∈ X`表示临床变量向量,`f`表示推荐所编码的条件决策逻辑,`Y ∈ Y`是指南规定的输出。我们将`f`实例化为一个有限的决策树`T_f`,其内部节点是`X`上的原子谓词`a ∈ A_f`,其叶子节点是`Y`中的输出。每个谓词的形式为`a_i = 1[g_i(X)]`,其中`g_i`是指南定义的条件,例如`age ≥ 65`或`eGFR < 30`。给定输入`X`,执行`T_f`会激活一条路径`π_f(X) = (a_i1, a_i2, ..., a_ik) ⊆ A_f`,这些谓词共同选择叶子输出`Y = f(X)`。这条路径是我们希望模型内化的指南逻辑的可验证单元:模型不仅应预测正确的输出,还应通过与`π_f(X)`一致的路径进行推理。 接下来,我们描述如何收集CPGs并从它们构建事实性和反事实性QA数据(§3 (https://arxiv.org/html/2605.26567#S3)),然后介绍如何使用SFT和RL训练MedGuideX(§4 (https://arxiv.org/html/2605.26567#S4))。图1 (https://arxiv.org/html/2605.26567#S1.F1) 展示了整个流程。 ## 3 数据准备 数据准备的核心产物是`f`的可执行实现,其控制流与决策树`T_f`一致。这种可执行形式通过直接执行来确定性标记合成的问、并通过在训练期间通过在模型陈述的中间变量上重新执行`f`来验证模型预测,从而实现下游监督。在这个公式中,输入对应于结构化的患者信息和临床场景,而可执行函数`f`表示基于指南决策逻辑的结构化临床推理。 ### 3.1 指南筛选 我们的初始指南来源是基于用于训练MEDITRON的语料库构建的开放CPG集合Chen et al. (2023 (https://arxiv.org/html/2605.26567#bib.bib8))。然而,该集合中的许多文档存在噪声、质量低或近重复的问题,这可能会严重降低下游QA数据的质量。因此,我们应用一个筛选流程来保留高质量的指南。 我们首先将语料库限制为来自美国来源的指南,因为临床建议可能因国家、医疗系统和组织而异。具体来说,我们保留来自美国疾病控制与预防中心(CDC)¹¹https://www.cdc.gov/ 和PubMed²²https://pubmed.ncbi.nlm.nih.gov/ 的指南。然后,我们使用LLM提取每条指南的结构化元数据,包括疾病或药物、目标年龄组、种族、性别和发布日期。元数据相同的指南被视为重复,仅保留最新版本。此外,我们指示LLM直接丢弃不完整的文档。经过筛选后,我们获得了一个经过过滤的CPG子集。 ### 3.2 可执行转换 #### 推荐提取。 我们首先将每篇文档分割成面向推荐的块,每个块包含一条或多条完整的指南推荐。这产生了一组指南推荐段落。然后,一个LLM提取器从每个块中识别推荐候选。对于每个候选,我们要求提取器识别目标人群、临床条件、推荐行动、相关例外和证据等级(如有)。然后,我们验证这些候选并仅保留可用的推荐。具体来说,我们丢弃那些不描述具体临床行动或无法表示为条件-行动规则的候选。我们还移除近重复项,即多条推荐描述高度相似的人群、条件和行动的情况。 #### 决策树验证。 每条保留的推荐被转换为一个决策树`T_f`,该树指定了所需的输入变量、决策条件和最终输出。一个LLM验证器检查该树是否完整,每个条件是否清晰,每个分支是否都有输出,以及所有变量是否都有源指南支持。 #### 编译为可执行函数。 每个经过验证的树被编译为一个可执行的Python函数,该函数以变量`X`作为输入并返回指南输出`f(X)`。我们还进一步检查该函数在语法上是否正确,在采样的输入上是否可执行,并且与原始决策树一致。 ### 3.3 QA合成 #### 事实性QA合成。 对于每个可执行函数`f`,我们采样完整的临床变量赋值`X`并执行`f`以获得指南输出`Y_obs = f(X)`。一个朴素的采样策略会产生太多简单的或默认的情况,例如“不采取行动”的推荐。为了避免这种不平衡,我们强制执行两个约束:(1)路径覆盖:生成的数据应覆盖树中的所有决策条件,以及(2)输出平衡:对于当前输入不建议诊断的输出不应主导数据集。在应用覆盖和平衡约束后,我们获得事实性QA集。对于每个样本,我们使用LLM从底层的Python函数`f`、输入变量`X`和执行输出`Y_obs`生成逐步推理轨迹。推理轨迹将执行的决策路径`π_f(X)`用语言表达,并与QA对一起存储,用于SFT训练。 #### 反事实性QA合成。 我们进一步生成反事实性QA数据,以训练模型推理患者条件假设变化的能力。对于每个反事实性示例,我们首先对`f`的输入进行完整的变量赋值`X`并执行`f`以获得事实性结果`Y_obs = f(X)`。然后,我们将变量划分为三个不相交的部分: - •`X_obs`:展示且保持不变的可观察变量。 - •`X_hid`:不展示的隐藏变量。 - •`x_int`:由干预修改的单个可观察变量,意味着其值被改变,而所有其他可观察变量保持不变。

相似文章

MedAction:迈向主动式多轮临床诊断大语言模型

arXiv cs.CL

本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。