用于模式约束临床信息抽取的检索增强型大语言模型

arXiv cs.CL 2026/05/18 04:00 论文

摘要

本文提出了一种模块化的检索增强生成（RAG）流水线，用于从护理人员与患者的对话转录中提取结构化临床观察结果，采用模式约束提示和第二遍审核，基于Llama和GPT骨干模型，取得了80.36%的F1分数。

arXiv:2605.15467v1 公告类型：新摘要：护理人员与患者的对话转录中包含了可操作的观察结果，但将这些转录大规模转换为结构化表示仍具挑战。文档负担沉重，先前研究表明，临床医生将工作日的很大一部分用于文档及相关案头工作，而非直接的患者护理。MEDIQA-SYNUR侧重于从护理-患者对话转录中提取观察结果，要求系统将这些叙述标准化为带有值类型约束的预定义模式。我们提出了一种模块化的检索增强生成（RAG）流水线，该流水线将训练集作为示例语料库，结合模式约束提示（完整模式与剪枝候选模式）、基于模式的确定性后处理以及第二遍审核，使用两种LLM骨干：Llama-4-Scout-17B-16E-Instruct和GPT-5.2，并配以相应的嵌入模型用于RAG。我们的最佳配置使用GPT-5.2，搭配完整模式、RAG和第二遍审核，取得了80.36%的F1分数。总体而言，我们的结果表明RAG持续提升了性能，而模式约束的最佳程度取决于模型，第二遍审核通过纠正残留的模式符合性错误带来了适度的额外增益。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:31

# MasonNLP在MEDIQA-SYNUR 2026：面向模式约束临床信息提取的检索增强大语言模型
来源：https://arxiv.org/html/2605.15467

###### 摘要

会话式护患对话记录中包含可操作的观察结果，但大规模地将这些记录转化为结构化表示仍然具有挑战性。文档负担沉重，先前研究表明，临床医生将工作日的很大一部分用于文档及相关案头工作，而非直接的患者护理。MEDIQA-SYNUR专注于从会话式护患对话记录中提取观察结果，要求系统将这些叙述标准化为预定义的模式，并遵循值类型约束。我们提出了一种模块化的检索增强生成（RAG）流水线，该流水线将训练集用作示例语料库，结合了模式约束提示（完整模式与精简候选模式）、基于模式的确定性后处理以及二次审核，并采用两个LLM骨干：Llama-4-Scout-17B-16E-Instruct和GPT-5.2，以及相应的RAG嵌入模型。我们最佳配置使用GPT-5.2配合完整模式、RAG和二次审核，达到了80.36%的F₁分数。总体而言，我们的结果表明RAG持续提升性能，而模式约束的最佳程度取决于模型，二次审核通过纠正残留的模式遵循错误，带来了适度的额外增益。
关键词：检索增强生成（RAG），临床信息提取，大语言模型

\NAT@set@cites

MasonNLP在MEDIQA-SYNUR 2026：面向模式约束临床信息提取的检索增强大语言模型

A H M Rezaul Karim, Özlem Uzuner
乔治梅森大学，弗吉尼亚州，美国
[email protected], [email protected]
摘要内容

## 1. 引言

临床文档对于护理的连续性和质量报告至关重要，但它仍是临床医生工作负担和职业不满的主要来源Muhiyaddin等人(2022)。一项针对门诊实践的研究表明，医生将近一半的门诊时间（49.2%）用于电子健康记录（EHR）和案头工作，直接临床面对患者的时间（27.0%）则少得多，此外每晚还需额外工作约1-2小时，且主要处理EHR任务(Sinsky等人，2016)。类似的基于EHR日志的分析报告指出，初级保健临床医生每天主动使用EHR的时间为145.9分钟(Rotenstein等人，2022)。这些对文档的较高需求促使我们研究能够自动捕获临床信息并以结构化形式呈现的方法，从而减少手动录入。作为这一方向的一步，特别适用于护理评估等工作流程，临床文档经常被转录Mayer等人(2022)。会话式护患对话记录就是此类文档的实例。

信息提取（IE）可以将记录转化为结构化表示Balasubramanian等人(2025)；Hu等人(2026)。在许多临床IE场景中，目标是从临床文本中识别片段、分配概念标签或提取关系，通常是在相对有限的标签空间内，且不要求模型生成完全归一化的结构化输出。对输出的严格要求，例如遵循带有格式一致性和有效性约束的大规模预定义模式(Karim and Uzuner,2025; Builtjes等人,2025)，给临床IE带来了额外挑战。

MEDIQA-SYNUR任务提出了一个观察结果提取任务，涵盖了这些挑战，特别针对会话式护患对话记录。给定一段记录，MEDIQA-SYNUR要求自动化系统提取临床显著的观察结果，并将其标准化为预定义的模式，该模式具有明确的值类型要求（例如，数值型与分类型值以及枚举选项的有效性）(Michalopoulos等人,2026)。该任务的*模式*捕获了目标观察概念的完整集合及其值类型和任何允许的分类型值集合。伴随该任务的SYNUR数据集提供了一个由专家护士注释的开放源代码合成语料库，包含大量结构化观察结果，从而支持对会话式护患对话记录中观察结果提取的可控评估(Corbeil等人,2025)。

近期在遵循指令的大语言模型（LLM）方面的进展，使得基于提示的临床IE能够将临床叙述转化为结构化表示(Agrawal等人,2022; Rodrigues and Teixeira Lopes,2025)。与特定任务的监督系统相比，LLM提供了更灵活的框架，先前工作表明，通过精心设计的提示，它们可以支持少量样本的提取，涵盖临床IE任务(Agrawal等人,2022; Rodrigues and Teixeira Lopes,2025)。然而，可靠性和模式遵循仍然是长期存在的问题，尤其当输出空间增大时。LLM倾向于幻觉概念名称、违反类型约束，并在模式复杂性增加时产生不一致的格式(Karim and Uzuner,2025; Builtjes等人,2025)。证据还表明，开放权重和封闭权重模型在约束性强的提示下，展现出显著不同的指令遵循行为和鲁棒性特征(Builtjes等人,2025)。在本工作中，我们通过约束其输出（使用复杂性可变的模式）来探索开放权重和封闭权重LLM在观察结果提取中的表现。我们称之为模式约束的观察结果提取。

我们假设检索增强生成（RAG）(Lewis等人,2020)可以通过将输出条件建立在检索到的示例上，来提升观察结果提取的性能(Shlyk等人,2024; Lopez等人,2025; Zhan等人,2025; Liu等人,2025)。为验证这一假设，我们研究了两种RAG方法，均使用训练集作为检索语料库。对于Llama-4-Scout-17B-16E-Instruct(Meta,2025)，我们发现使用精简候选模式来约束输出空间可以改善结果。相比之下，使用GPT-5.2(OpenAI,2025)时，RAG结合完整模式达到了最佳性能，而二次审核带来了额外增益。111实现细节可参见：https://github.com/AHMRezaul/MEDIQA-SYNUR-2026

参见图注
图1：检索增强的模式约束流水线，检索训练示例，基于模式（完整或精简候选）对LLM进行条件设置，并通过二次审核对输出进行后处理。

我们的研究做出了以下贡献：

- • 在临床IE中，RAG与模式之间的相互作用问题。我们的工作直接填补了这一空白，通过研究RAG如何与不同的模式约束在不同的参数规模LLM骨干下相互作用，提供了观察结果提取中这种相互作用的系统分析。
- • 我们发现，精简候选模式对于较小的开放权重模型有益，但对较大的模型则适得其反，这表明输出约束的制定方式（即固定任务模式在生成时如何呈现给模型）应该具有模型感知性，即适应底层模型的行为和能力。
- • 我们提出了二次审核，它主要通过纠正模式遵循和标准化错误带来适度增益，但不能替代RAG和模式约束，表明它最适合作最终的优化阶段，而非核心组件。

总体而言，我们的发现提供了实际证据，表明模式约束的观察结果提取应具有模型感知性。我们的结果阐明了何时精简候选模式有帮助，何时完整模式更优，并进一步展示了如何结合RAG和二次审核来提升鲁棒性。

## 2. 相关工作

临床信息提取（IE）一直由标准化概念提取、断言检测和关系评估的任务驱动(Uzuner等人,2011; Henry等人,2020; Fu等人,2020; Navarro等人,2023)。诸如i2b2/VA和n2c2等基准建立了片段提取和标准化的协议，但主要集中于相对较小的标签空间(Uzuner等人,2011; Henry等人,2020; Mahajan等人,2023)。相比之下，MEDIQA-SYNUR聚焦于一个大型、异质的输出空间（193个带类型的观察概念），必须在严格的类型和枚举约束下进行提取，这促使了明确基于模式进行条件生成的方法。

早期针对会话式护患对话记录的研究将语音识别与IE相结合，以生成结构化的交接文档，突显了从记录中提取结构化表示的可行性和难度(Johnson等人,2014a,b; Dawson等人,2014)。随后的共享评测发布了转录的交接数据集和结构化注释，常常使用合成数据以克服隐私障碍(Suominen等人,2015b,a,2016)。在此基础上，Corbeil等人(2025)引入了SYNUR以支持对会话式护患对话记录的结构化输出的系统评估，但如何在大规模下可靠地强制执行模式遵循仍是一个开放问题。

在基于LLM的临床IE中，大多数先前工作强调直接提示或少量样本提取，通常是在输出被更灵活解释且不受大型预定义模式严格约束的场景下(Agrawal等人,2022; Rodrigues and Teixeira Lopes,2025)。明确研究模式遵循的工作表明，随着输出空间增大和有效性约束变严，结构化提取变得显著更困难(Karim and Uzuner,2025; Builtjes等人,2025)。尽管检索增强生成在临床提取中已开始显示出前景，通过将预测锚定在相关示例或证据上(Lewis等人,2020; Shlyk等人,2024; Lopez等人,2025; Zhan等人,2025; Liu等人,2025)，但其与模式约束生成的相互作用仍未被充分探索。同样，先前工作很少比较开放权重和封闭权重LLM在此类约束较强的提取设置下的行为。我们的工作正是在模式约束的观察结果提取背景下填补了这些空白。

## 3. 任务描述

### 3.1. 问题定义

MEDIQA-SYNUR将任务定义为从会话式护患对话记录中进行*观察结果提取*。给定一段记录xx，目标是识别临床显著的观察结果，并将其标准化为预定义的模式。

该模式由M=193M=193个观察概念S={c1,…,cM}\mathcal{S}=\{c_1,\ldots,c_M\}组成。每个概念cmc_m都有一个标识符idm\mathrm{id}_m，一个名称NmN_m，一个值类型τm∈{single_select,multi_select,numeric,string}\tau_m\in\{\textsc{single\_select},\textsc{multi\_select},\textsc{numeric},\textsc{string}\}，对于分类型，还有一个允许值集合Vm\mathcal{V}_m。

对于输入xx，系统输出一个提取的观察实例列表O^=[o1,…,on]\hat{O}=[o_1,\ldots,o_n]，其中每个实例是模式中的一个对象oi={id^i,N^i,τ^i,v^i}o_i=\{\hat{\mathrm{id}}_i,\hat{N}_i,\hat{\tau}_i,\hat{v}_i\}。评估衡量在此模式下预测观察结果的正确性。

### 3.2. 数据集

SYNUR数据集（SYnthetic NURsing）(Corbeil等人,2025)是一个JSONL文件，分为train、dev和test。表1(https://arxiv.org/html/2605.15467#S3.T1)给出了每个划分的数据集统计信息。每个实例包含一个唯一的标识符id和自由文本transcript，还包含真实观察结果ground truth observations，表示为模式对象的列表，其值可能是分类型（单选或多选）、数值型或自由文本，反映了常规护理文档的异质性。

表1：每个划分的数据集统计信息，包括实例数、观察结果总数以及每个划分中唯一观察结果的数量。
在所有划分中，会话式护患对话记录长度适中，平均192个词，长度范围从59到343个词。在训练集和开发集中，每个实例平均包含13.45个观察结果，每个案例范围从6到34个观察结果，同一实例内无重复概念ID。标签频率呈长尾分布，一小部分观察结果出现非常频繁（例如，*认知状态*、*活动能力*、*血氧饱和度*、*恶心*），这些通常是护士最常进行的观察。许多概念是稀疏的，其中有55个概念在标注数据中最多出现五次，23个概念仅出现一次或两次（例如，*引流输出*、*假体使用*、*异物移除*）。

提供的模式定义了193个唯一的观察概念，带有明确的值类型，对于分类型概念，还有枚举的允许值。模式以分类型字段为主（130个single_select和12个multi_select），另有numeric（20个）和string（31个）概念。分类型概念的平均标签集较小，但包含更大全量表，如临床丰富的字段*排便描述*（12个选项）和*疼痛严重程度*（11个选项）。模式还包括15个显式的“单位”概念（例如，血氧饱和度单位，呼

用于模式约束临床信息抽取的检索增强型大语言模型

相似文章

SchemaRAG: 面向LLM驱动的结构化信息提取的动态大规模模式简化

大型语言模型用于安全数据提取的基准测试

大型语言模型能否模仿人类语音进行临床评估？基于LLM的数据增强方法用于认知评分预测

Structure-Aware RAG: 用于对话代理的噪声数据结构化检索增强生成

RASC+: 面向临床值集编制的检索约束型大语言模型裁决方法

提交意见反馈