迈向无差错的电子健康记录:临床笔记与结构化表格之间推理密集型一致性验证

arXiv cs.CL 论文

摘要

本文介绍了EHR-ReasonCon,这是一个用于电子健康记录中临床笔记与结构化表格之间一致性验证的推理密集型基准,以及EHR-Inspector,一个基于大语言模型的框架,在检测差异方面实现了最先进的性能。

arXiv:2605.26463v1 公告类型:新 摘要:电子健康记录(EHR)中非结构化临床笔记与结构化表格之间的数据一致性对于患者安全和临床决策至关重要。然而,现有的笔记-表格一致性验证工作主要依赖于数值或简单事件的表面匹配。这类方法无法捕捉真实世界EHR文档背后的推理,包括临床解释、事件关系和时间变化。为解决这一问题,我们提出了EHR-ReasonCon,一个用于笔记-表格一致性验证的推理密集型基准。基于MIMIC-III并辅以专家指导的注释,它包含来自临床笔记的8,048个实体,并提供高质量的真实标签。注释协议得到专用表格探索工具的支持,以确保系统化证据检索和可靠的一致性评估。我们还提出了EHR-Inspector,一个基于大语言模型的框架,它分割笔记、提取锚定实体和时间参考,并使用表格探索工具验证与结构化表格的一致性。使用专家验证的大语言模型作为裁判的指标,在严格和宽松标准下进行评估,EHR-Inspector在多个模型骨干上实现了最先进的性能。分析进一步证明了其组件的有效性,并突出了与人工验证的差异。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:06

# 迈向无差错的电子健康记录:临床笔记与结构化表格之间基于推理的一致性验证

来源:https://arxiv.org/html/2605.26463

Yeonsu Kwon¹, Jiho Kim¹*¹, Junseong Choi¹, Paloma Rabaey², Minseo Kim¹, Sujeong Im¹, Jeewon Yang¹, Jun-Min Lee¹, Sangji Lee³, Jiwon Kim⁴, Hangyul Yoon¹, Hyunwook Kwon⁵, Edward Choi¹

¹KAIST
²根特大学
³三星医学中心
⁴三星昌原医院
⁵首尔峨山医院

{yeonsu.k, jiho.kim, edwardchoi}@kaist.ac.kr

###### 摘要

非结构化临床笔记与电子健康记录(EHR)中结构化表格之间的数据一致性对于患者安全和临床决策至关重要。然而,现有的笔记-表格一致性验证工作主要依赖于数值或简单事件的表面匹配。这种方法无法捕捉真实世界EHR文档背后的推理过程,包括临床解释、事件关联和时间变化。为填补这一空白,我们引入了EHR-ReasonCon,一个用于笔记-表格一致性验证的推理密集型基准。该基准基于MIMIC-III构建,并带有专家指导的注释,包含从临床笔记中提取的8,048个实体,并提供高质量的真实标签。注释协议得到专门的表格探索工具支持,以确保系统化的证据检索和可靠的一致性评估。我们还提出了EHR-Inspector,一个基于LLM的框架,该框架分割笔记,提取锚点实体和时间引用,并使用表格探索工具验证与结构化表格的一致性。在严格和宽松两种标准下,使用经过专家验证的LLM作为评审指标进行评估,EHR-Inspector在多个模型骨干上实现了最先进的性能。进一步的分析展示了其组件的有效性,并突出了与人工验证的差异。

## 1 引言

参见图注

图1:推理密集型笔记-表格一致性验证概览。示例突出了超越临床笔记与结构化表格之间表面对齐的推理密集型验证需求。

在电子健康记录(EHR)系统中,患者信息通过两种主要方式记录:结构化表格(例如生命体征、处方)和非结构化临床笔记(例如医生笔记)(Seinen 等,2024)。临床医生将结构化数据中的客观发现与笔记中的上下文信息相结合,以指导诊断和治疗决策,然后这些决策又被记录回EHR。由于这种相互依赖关系,这两种数据类型之间的可靠性和一致性至关重要。然而,在实践中,由于行政管理驱动的系统架构和文档实践,经常出现差异(Payne 等,2018;Villa 和 Cabezas,2014),可能危及患者安全并带来法律风险(Demsash 等,2023;Tsou 等,2017)。因此,检测这些差异至关重要,但人工验证因时间和成本而不切实际。这推动了自动化方法的发展。先前的工作研究了临床笔记与结构化表格之间的不一致性,主要集中在特定领域,如过敏或药物(Li 等,2015;Lo 等,2022;Rinott 等,2012)。最近,EHRCon(Kwon 等,2024)将这项工作扩展到关系数据库。然而,这些方法依赖于表面层次的验证,例如检查临床笔记中提到的数值(例如WBC 10.0)或离散事件(例如万古霉素给药)是否也记录在结构化表格中。虽然这些方法提供了一个有用的起点,但它们无法捕捉真实世界临床文档的上下文和细微差别。

真实世界的EHR文档从根本上需要高级推理才能进行准确的笔记-表格一致性验证,这超越了表面层次的对齐。例如,临床笔记通常描述解释后的患者状态,而结构化表格记录的是底层测量值(见图1-(1))(Gao 等,2024;Raghavan 等,2014)。因此,验证这些陈述需要评估测量值是否满足支持该解释的临床标准。此外,临床笔记通常描述多个临床事件之间的关系(见图1-(2))。验证此类陈述需要检查这些事件关系是否在结构化记录中得到一致支持,而不是孤立地验证单个表格条目(Khetan 等,2022;Wang 等,2018)。此外,临床笔记经常描述患者状态随时间的变化以及后续干预(见图1-(3))。验证此类陈述需要评估趋势、时间跨度以及相应的治疗,而不是依赖结构化表格中的单个时间点(Pan 等,2020;Yu 等,2024)。然而,现有方法在捕捉笔记-表格一致性的这些推理密集型方面存在不足。

为弥补这一关键差距,我们引入了EHR-ReasonCon,一个用于笔记-表格一致性验证的推理密集型基准。该基准基于MIMIC-III(Johnson 等,2016)构建,包含从临床笔记中提取的8,048个实体。它旨在反映真实世界的临床文档实践,并受到与四位临床专家¹ 密切合作制定的严格注释协议指导。该协议通过试点研究反复完善,以确保清晰性和鲁棒性。为支持该协议下的注释,我们开发了八个专门的表格探索工具,用于系统化地检索结构化证据。使用这些工具,八位熟悉EHR系统的注释者进行了注释,并在必要时咨询权威医学参考文献。为确保高可靠性,我们实施了多阶段质量控制流程,包括双重注释、分歧解决和由医生进行的最终裁决。因此,EHR-ReasonCon实现了高水平的注释者间一致性(即NER为0.897,一致性标记为0.888),为评估基于推理的一致性验证建立了可靠的真实标准。

为应对这一基准,我们还提出了EHR-Inspector,一个模仿注释工作流程的基于LLM的框架。EHR-Inspector将临床笔记分割成以事件为中心的片段,提取锚点实体及其时间上下文,并使用表格探索工具验证与结构化EHR数据的一致性。为进行评估,我们采用了LLM作为评审的评估器,并经过临床专家判断验证,在两个严格级别(严格和宽松)下评估框架。实验结果表明,EHR-Inspector在多个模型骨干上一致实现了最先进的性能,显著提高了召回率和精确度。进行了广泛的分析,进一步的推理轨迹评估突出了LLM与人工验证之间的差异。

## 2 相关工作

### EHR中临床笔记与结构化表格之间的一致性检查

临床笔记与表格之间的差异长期以来被认为是一个关键问题,可能导致医疗错误(Kwon 等,2024;Li 等,2015;Lo 等,2022;Rinott 等,2012)。早期关于一致性检查的研究主要集中在特定领域的协调,以对齐不同数据源之间的信息。例如,Rinott 等(2012)使用分类器集成检测肉瘤出院小结中的不一致性,Li 等(2015)提出了一种用于儿科用药差异的混合机器学习和规则方法,Lo 等(2022)应用NLP方法协调临床笔记与结构化列表之间的过敏信息。然而,这些方法通常依赖于从笔记中提取编码实体并与结构化表格进行比较,没有将一致性验证定义为通用任务或发布数据集。为克服这一限制,EHRCon(Kwon 等,2024)引入了一个用于验证临床笔记与关系数据库之间一致性的基准,该基准基于MIMIC-III(Johnson 等,2016)构建。该数据集包括通过SQL查询执行将临床笔记中的实体链接到多个表格条目的手动注释。然而,EHRCon以表面层次的方式进行验证,评估笔记中的特定值或简单事件是否与结构化记录匹配。相比之下,EHR-ReasonCon引入了一个推理密集型基准用于评估笔记-表格一致性。

### 工具增强的表格推理智能体

最近关于表格问答的工作通过外部工具增强了LLM的推理能力,用于对表格数据进行过滤、聚合和数值计算(Jiang 等,2025;Lu 等,2025;Wang 等,2025;Xiong 等,2025;Zhou 等,2025)。一些方法将程序生成和执行集成到推理过程中(Lu 等,2025),而其他方法则开发了执行迭代规划、动作和反思的自主智能体(Jiang 等,2025),或者将这些能力组织成模块化或多智能体工作流程以进行复杂表格推理(Xiong 等,2025;Zhou 等,2025)。电子表格智能体进一步将基于工具的推理扩展到大型多表格环境,并支持问答和电子表格操作(Wang 等,2025)。受这些进展的启发,我们提出了EHR-Inspector,一个用于临床笔记与大规模结构化表格之间推理密集型一致性验证的工具增强框架。

## 3 EHR-ReasonCon

EHR-ReasonCon是一个高质量的推理密集型一致性验证基准,包含8,048个注释实体,这些实体链接到MIMIC-III中的14个表格²。这些实体来源于105份临床笔记,涵盖三种笔记类型:出院小结、医生笔记和护士笔记。表1报告了EHR-ReasonCon的统计信息,更多细节见附录A。图2显示了注释过程,下面描述了所涉及的步骤。

表1:EHR-ReasonCon的数据集统计信息。Con.和Incon.分别表示具有一致和不一致标签的实体数量。

参见图注

图2:用于笔记-表格一致性验证的推理密集型注释过程概览。流程包括协议和工具开发(阶段0)、锚点实体识别(阶段1)、工具辅助证据检索(阶段2)和实体级一致性验证(阶段3)。最后,在所有实体注释完成后,执行数据集级别的质量控制步骤(阶段4)以解决分歧并完善注释。

##### 阶段0:注释前准备

此阶段的目标是建立构建反映临床背景的高质量基准所需的注释协议和工具。该协议与医疗从业者共同制定,规定了临床笔记中的叙述性表达如何映射到结构化表格字段,并提供了解释时间趋势、处理模糊临床判断以及确保注释一致性的标准(详细协议见附录B)。然而,真实世界的EHR数据包含预定义指南无法完全预见的边缘情况。为解决此问题,我们进行了试点注释研究以完善协议。在试点阶段,我们分析了注释者在结构化表格中搜索相关证据的方式,并将重复出现的搜索模式形式化为模块化功能。这个过程产生了八个表格探索工具(进一步细节见附录C),支持对复杂结构化表格的高效探索,并分为三个功能类别:

- **实体到表格项的对齐**:此类别中的工具支持将临床笔记中提到的实体与结构化表格中对应的项进行对齐。相同的临床信息可能以不同的名称或抽象级别出现(例如,“White Blood Cells”和“WBC”),因此这些工具基于词汇相似性和概念相关性检索潜在相关的表格项。
- **数据库探索和值分析**:此类别中的工具支持探索EHR数据库模式和内容。由于临床概念可能分布在多个表格中,这些工具支持探索相关的表格组,并总结每个项的典型值(例如,“Stool Amount: [Small, Medium, Large]”表示Stool Amount是分类变量而非数值变量),使注释者能够快速理解不同字段的作用。
- **时间和条件记录检索**:此类别中的工具支持验证涉及时间变化或特定条件的临床陈述。这些工具允许注释者基于时间窗口和值约束从结构化表格中检索记录,从而检查结构化数据是否支持临床笔记中描述的趋势或事件。

### 阶段1:锚点实体识别

此阶段的

相似文章

逻辑正则化验证器激发大语言模型的推理能力

arXiv cs.CL

介绍了 LoVer,一种使用逻辑规则(否定一致性、组内一致性和组间一致性)来在无标签数据下提升大语言模型推理能力的无监督验证器,在推理基准测试中达到了接近监督验证器的性能。