ClinicalBench：对 MIMIC-IV 跨入院临床问答中基于断言感知的检索进行压力测试

arXiv cs.CL 2026/05/13 04:00 论文

摘要

本文介绍了 ClinicalBench 和 EpiKG 系统，评估了针对 MIMIC-IV 数据在多个人工智能大语言模型（LLM）上的临床问答中基于断言感知的检索能力。研究证明，在检索过程中处理否定和时态信息，相比标准基线能显著提升性能。

arXiv:2605.11143v1 公告类型：新论文摘要：推理基准测试衡量的是在干净输入数据上的临床表现。我们评估的是推理之前的步骤：即对真实电子健康记录（EHR）笔记的检索，其中的否定、时态以及家属与患者归属问题可能导致正确答案变成错误答案。EpiKG 在患者知识图谱中的每个事实都带有断言标签和时态标记，然后根据问题意图路由检索过程。ClinicalBench 是一个包含 400 道题的测试集，涵盖 43 名 MIMIC-IV 患者和 9 个对断言敏感的类别。我们进行了 7 项条件消融实验，针对六个大语言模型（Claude Opus 4.6, GPT-OSS 20B, MedGemma 27B, Gemma 4 31B, MedGemma 1.5 4B, Qwen 3.5 35B）测试了 EpiKG 的各个组成部分。三名医生对 100 组配对项目进行了盲法裁决。作者盲评的主要终点（针对由两名外部医生评级的 50 项一致严格项目采用留作者出的配对精确 McNemar 检验）显示提升了 22.0 个百分点（95% Newcombe 置信区间 [5.1, 31.5]，p=0.0192）。架构创新方面，与 Contriever 密集检索增强生成（RAG）基线相比，基于意图感知的知识图谱-RAG（在排除变化的 n=362 终点上从 C2b 到 C4g_kw）提升了 8.84 个百分点（配对 McNemar p=1.79e-3）；在理想意图下提升了 12.43 个百分点。敏感性分析在方向上达成一致：三名医生多数裁决提升 24.0 个百分点（受限于单作者循环性）；确定性关键词可复现性代理提升 39.5 个百分点。在六个模型中，随着单独使用大语言模型基线性能的提升，增益缩小（beta=-1.123, r=-0.921, p=0.009）。在 n=6 的情况下，这看起来更像是向均值回归，而非编码替代了模型规模。医生裁决发现 56% 的自动生成的参考答案存在缺陷，这一方法论发现表明，自然语言处理管线中的临床问答基准需要医生裁决才能具备可用性。ClinicalBench、固定的评估器、三人裁决数据以及 EpiKG 输出堆栈均已公开发布。

查看原文

查看缓存全文

缓存时间: 2026/05/13 06:09

# 针对 MIMIC-IV 源数据的跨入院临床问答进行断言感知检索的压力测试

**来源：** https://arxiv.org/html/2605.11143  
**Alex Stinard, MD**  
Department of Clinical Sciences, College of Medicine, University of Central Florida, Orlando, FL 32816  
[email protected]  

**ClinicalBench：针对 MIMIC-IV 跨入院临床问答中断言感知检索的压力测试**  
**Alex Stinard, MD**  
Department of Clinical Sciences, College of Medicine, University of Central Florida, Orlando, FL 32816  
[email protected]  

预印本 — arXiv 版本

## 摘要

**目的。** 推理基准测试衡量的是在干净输入下的临床表现。我们评估了推理之前的步骤：在真实的电子健康记录（EHR）笔记上进行检索，其中否定、时间性以及家属与患者归属的混淆可能将正确答案翻转为错误答案。

**材料与方法。** EpiKG 在患者知识图谱的每个事实中携带断言标签和时间性标记，然后根据问题意图路由检索。ClinicalBench 是一个包含 400 个问题的测试集，涵盖 MIMIC-IV 数据集中 43 名患者的 9 个对断言敏感的类别。通过 7 条件消融实验，在六种大型语言模型（LLM，分别为 Opus 4.6, GPT-OSS 20B, MedGemma 27B, Gemma 4 31B, MedGemma 1.5 4B, Qwen 3.5 35B）上测试了 EpiKG 的各个组件。三名医生对 100 对配对项进行了盲审裁决。

**结果。** 作者盲审的主要终点：在 50 个项目（Hird×Nadeem 一致严格裁决）上进行留出一作者配对精确 McNemar 检验，$\Delta = +22.0\,\text{pp}$ $[+5.1\,\text{pp}, +31.5\,\text{pp}]$（95% Newcombe 置信区间），$p=0.0192$。架构上的新颖性在于从 C2b（Contriever 稠密 RAG）到 C4g\_kw（意图感知 KG-RAG）的转变，在排除变更的 $n=362$ 终点上提升了 $+8.84\,\text{pp}$（配对 McNemar $p=1.79\times 10^{-3}$）；在预言家意图下提升了 $+12.43\,\text{pp}$。敏感性分析：三评分医生多数决提升 $+24.0\,\text{pp}$（$p=0.0075$；Fleiss’ $\kappa=0.413$；由于作者是 R1，存在单作者循环性风险）；确定性关键词代理在仅 LLM 基础上提升 $+39.5\,\text{pp}$（可复现性工具，非临床正确性主张）。审计发现 56% 的自动生成参考文献存在缺陷。

**讨论。** 在六种模型中，随着仅 LLM 基线的升高，增益缩小（$\beta=-1.123$, $r=-0.921$, $p=0.009$）。鉴于 $n=6$，这看起来更像是回归均值，而非编码替代模型大小。作者构建了系统，生成了初始金标准，并执行了内部审计。主要终点使用外部医生评分，并将作者排除在外。

**结论。** 携带断言标签并根据问题意图路由检索，提高了六种 LLM 的跨入院临床问答性能。ClinicalBench 和评估工件已公开。

## 1 背景与意义

大型语言模型在医学执照考试中的表现达到或超过了医师水平 [1, 2, 3]，而 HealthBench Professional、MedQA 和 USMLE 风格的推理基准测试则衡量了给定干净病例摘要时的临床推理“最后一公里”。然而，真实 EHR 的使用暴露了一个互补且未被充分测量的层面：**检索忠实度**。在混乱的图表中，在推理之前必须处理否定、时间漂移、来源冲突和语义压缩。

更难的问题不是 AI 是否能像医生一样推理，而是它是否能像医生一样阅读——当然，医生两者兼备。单句——“患者否认胸痛，姐姐 45 岁时发生过心肌梗死，如果血脂持续升高将考虑他汀类药物”——编码了否定、家属归属、假设意图以及隐含的当前状况。临床 NLP 能准确检测这些断言 [4, 5]，但 RAG 流水线往往扁平化上下文，将“患者否认”与“患者患有”混淆。这就是**认识论传播差距（epistemic propagation gap）**，属于更广泛的结构性表示差距的一部分——即保留至检索阶段的断言类型、时间索引和体验者归属——而现有的推理基准测试并未对此进行探测。

据目前所知，尚无患者级临床 KG-RAG 系统能同时在图边上保留断言状态，并根据问题意图路由检索。OMOP 标准从 `CONDITION_OCCURRENCE` 中排除了否定的情况 [6]，FHIR 仅为 `Condition` 资源提供了 `verificationStatus`。现有的图增强 RAG 系统——包括 GraphRAG [7]、GFM-RAG [8]、KARE [9] 和 Medical-Graph-RAG [10]——构建的知识图谱丢弃了区分“患者患有糖尿病”与“排除糖尿病”的元数据。

还存在平行的**时间整合差距（temporal integration gap）**：临床事件允许双向时间存储（有效时间 + 事务时间，遵循 Snodgrass 传统；参见 Zep [11]），加上 NLP 断言的时间性标签 $\tau_a \in \{\text{Past, Current, Future}\}$，但现有系统最多只建模其中一部分 [12, 11]。

核心实证发现是交互性的：除非检索也根据问题类型进行路由，否则仅保留断言并不能提高整体准确率。本文做出三项贡献：

1.  **ClinicalBench。** 一个针对 43 名 MIMIC-IV 患者（便利样本；32 名有两次入院，11 名单次入院）和 9 个对断言敏感类别的 400 题单中心、同记录压力测试，揭示了聚合分数所掩盖的类别×条件交互作用。它针对真实图表上的检索忠实度，而非干净病例摘要上的推理，在另一个层面上补充了考试风格的基准测试。还引入了 SliceBench，这是一个关于记录复杂性的支持性小案例研究。
2.  **EpiKG 与认识论传播差距。** 形式化了临床 NLP 流水线中断言元数据的丢失问题，推导出了信息论损失界（第 3.3 节，附录 B），并实现了一个患者级临床 KG-RAG 系统，该系统在根据问题意图路由检索的同时保留断言和时间元数据。
3.  **作者盲审的主要终点与架构新颖性。** 作者盲审的主要终点是一项配对测试：在两名外部医生裁决的 $n=50$ 个一致严格项目上进行留出一作者精确 McNemar 检验，得出 $\Delta = +22.0\,\text{pp}$（95% Newcombe CI $[+5.1, +31.5]$，$p=0.0192$）。架构新颖性体现在意图感知 KG-RAG 相对于强稠密 RAG 基线（Contriever）的配对增量，即从 C2b 到 C4g\_kw，在排除变更的 $n=362$ 终点上提升了 $+8.84\,\text{pp}$（McNemar $p=1.79\times 10^{-3}$；预言家提升 $+12.43\,\text{pp}$）。次要敏感性被降级：三评分者多数决提升 $+24.0\,\text{pp}$（由于作者是一名评分者，存在单作者循环性）和确定性可复现性代理（关键词评估器）提升 $+39.5\,\text{pp}$（非临床正确性主张）。跨越 $n=6$ 种模型的跨模型收敛仅具描述性：C1 基线与 C1→C4g\_oracle 增量之间的线性回归得出 $\beta=-1.123$, $r=-0.921$, $p=0.009$，这与回归均值一致，而非编码替代参数量。作者设计了基准测试，构建了系统，并进行了内部评估；这种循环性通过冻结的评估工件、外部医生评估和跨模型复制在结构上得到缓解，但读者应据此权衡主张（第 4.1 节）。

综上所述，这得出了一个得到基准支持的設計假說：保留认识论元数据，根据意图路由检索，并通过类别×条件交互作用而非聚合分数进行评估。核心研究问题——*何时结构化认识论上下文有帮助、有害或持平？*——在专为检索忠实度而非跨站点泛化而设计的单中心、分布内压力测试中得到了交互性回答。

### 1.1 相关工作

先前的工作沿四个轴线组织（扩展讨论和表 6 见附录 D.1）。

#### 临床推理基准测试
推理评估是互补的。HealthBench Professional [13]、MedQA [14] 和 MedPaLM 2 [1] 在预先提供事实的病例摘要上评分推理；EpiKG 在具有分散事实、否定、时间和来源模糊性的真实纵向 EHR 上测量检索忠实度。两者探测不同的阶段：最后一公里（给定干净输入的推理）与第一英里（从混乱图表中读取正确的患者）。

#### 医学 RAG 与临床问答
图增强检索是一个领先范式：GraphRAG [7]、GFM-RAG [8] 和 Medical-Graph-RAG [10] 构建群体级图，但不传播源自笔记的断言或时间元数据（在我们的框架中，即带有 NLP 断言作用域标签的双向时间存储）。现有基准测试——MedPaLM 2 [1]、MIRAGE [15]、emrQA [16]——针对事实回忆或接地检索，而非针对真实 EHR 的断言忠实纵向问答。

#### 临床 KG 构建
Multi-LLM KG-RAG [17]、AutoRD [18] 和 RECAP-KG [19] 将 LLM 应用于临床 KG 构建，但未将断言状态传播到最终图中。

#### 断言检测与时间 KG
NegEx [20]、ConText [21] 和 Gul 等人 [5] 将断言检测视为终端标注；MedTKG [12] 和 Graphiti [11] 实现了时间 KG，但缺乏认识论传播。

出现了两个结构性差距：**认识论传播差距**（断言标签未持久化到 KG 中）和**时间整合差距**（时间形式系统是标注层，而非参与检索的边属性）。EpiKG 通过将断言和时间元数据作为一等属性贯穿每个流水线阶段来弥合这两个差距。

## 2 目标

评估在患者级临床知识图谱中保留断言和时间元数据，然后根据问题意图路由检索，是否能提高基于电子健康记录的跨入院临床问答性能。

## 3 材料与方法

### 3.1 方法概述

EpiKG 实现了三个理念（图 1）：(1) 端到端认识论保留，在提取、OMOP 映射、KG 物化和检索过程中携带断言标签；(2) 双向时间边存储（有效时间、事务时间；遵循 Snodgrass 传统，参见 Graphiti [11]）加上源自临床文本作用域的 NLP 断言时间性标签 $\tau_a \in \{\text{Past, Current, Future}\}$（数据模型澄清见附录 C.1）；以及 (3) 意图感知路由，将图遍历与问题类型匹配。前两者是基础设施，后者是性能增益的来源。

**图 1：带有具体数据示例的 EpiKG 系统工作流。**
*顶部：* 从临床笔记到答案的 9 阶段流水线，金色 $\alpha$ 丝带追踪断言保留的端到端过程。
*中间：* 每个阶段的实际数据——包含否定、家族史和条件语言的出院摘要被提取为带有断言标签的提及，物化为带有时间性的 KG 边，并通过意图感知路由进行过滤。
*底部：* 四种路由策略及其形式化操作。示例显示 `Current_State` 查询如何过滤掉条件边，同时保留已确认的药物。
*替代文本：* 多行工作流图。顶行显示临床笔记摄入，通过提取、OMOP 映射、图构建、检索和答案生成。高亮的断言标签在各个阶段得以保留。中间面板显示示例笔记文本、提取的提及、图边和路由证据。底行比较默认、变更、当前状态和历史查询的路由操作。

### 3.2 认识论断言模式

临床笔记包含限定性陈述（“无肺炎证据”、“可能的充血性心力衰竭”、“母亲曾患乳腺癌”），而标准表示方法会丢弃这些陈述：OMOP 排除了否定的情况 [6]；FHIR 限制了断言元数据。EpiKG 定义了一个七值断言分类法：
$$ \alpha \in \{\text{Pres., Abs., Poss., Cond., Hypo., Fam.Hx., Hist.}\} \quad (1) $$
扩展了 i2b2 六类分类法 [4]，将 `Historical` 与 `Family_History` 分开（附录 Q）。基于规则的分类器（122 个感知作用域的触发模式）分配 $\alpha$ 并附带置信度分数，该分数贯穿每个阶段传播。每条边携带双向时间元数据（有效时间 + 事务时间）加上 NLP 断言的时间性标签 $\tau_a$，Allen 风格的区间关系存储为边元数据（数据模型澄清见附录 C.1）。

### 3.3 形式化认识论保留

认识论不变式被形式化为可测试的流水线属性（附录 B）。断言盲流水线将所有标签折叠为 `Present`，将断言熵降低为零 [22]；其忠实度界限为 $1-f_{\text{np}}(c)$，其中 $f_{\text{np}}$ 是非 `present` 提及的比例——对于像肺炎或糖尿病这样的概念，该值远低于 1。实证后果通过第 4 节中的类别分层准确性进行测量。

### 3.4 意图感知检索 (C4g)

基础检索流水线使用患者 KG 边和 OMOP 词汇关系上的双向 BFS（附录 C.2），但将所有问题视为均匀处理。不同的临床问题类型需要根本不同的图操作：`change` 需要跨入院集差分，`current-state` 需要最近的有效边，`historical` 必须恢复已解决的情况。

#### 意图分类器
基于规则的分类器将每个问题映射为 `Change`、`Current_State`、`Historical` 或 `Default`（算法 1，附录 S）。主要结果仅使用关键词……

ClinicalBench：对 MIMIC-IV 跨入院临床问答中基于断言感知的检索进行压力测试

相似文章

MedBench v5：面向临床多模态模型的动态、过程导向且具有幻觉感知能力的基准测试

CLIR-Bench：不规则临床时间序列的多模态问答基准

EHRBench：用于大语言模型临床决策的自动化可靠电子健康记录基准

当病例罕见时：面向非指南临床问答的检索基准

EHRNote-ChatQA：基于证据的长篇出院小结多轮临床问答基准

提交意见反馈