EPPC-OASIS:针对安全消息中电子患者-提供者通信挖掘的本体感知适应与结构化推理优化
摘要
本文介绍了EPPC-OASIS,一种本体感知适应方法,用于从安全的患者-提供者消息中提取结构化通信行为。该方法在微调过程中结合了Wasserstein对齐与推理优化步骤,在一个去标识化语料库上相比基线取得了适度改进。
arXiv:2605.24172v1 公告类型:新发布
摘要:安全的患者-提供者消息包含在临床中重要的通信行为,但手动大规模表征这些行为很困难。电子患者-提供者通信(EPPC)框架提供了一种本体用于编码这些行为,但自动提取仍然具有挑战性,因为预测必须保留细粒度的代码/子代码结构,同时将注释建立在消息文本基础上。我们开发了EPPC-OASIS,一种用于结构化EPPC提取的本体感知适应方法,并将其与可部署的推理优化步骤相结合,旨在提高最终注释的一致性。EPPC-OASIS通过Wasserstein对齐目标增强了监督微调,该目标鼓励模型表示邻域与EPPC本体派生邻域之间的对齐,而推理优化则使用验证、自一致性、混合修正以及选择或集成来解决残差预测错误。我们在一个去标识化的安全患者-提供者消息语料库上,针对多种开放权重语言模型,与基于提示、监督微调、偏好和鲁棒性的基线进行了评估。在不同的模型家族中,最佳可部署流水线实现了77.13%的代码+子代码F1和63.83%的三元组F1,相对于最强的监督微调基线,分别获得了+1.39和+2.12 F1点的适度但一致的绝对提升。这些结果表明,本体感知适应与结构化推理优化可以支持可扩展的回顾性EPPC挖掘,但在投入使用之前需要外部验证。
查看缓存全文
缓存时间: 2026/05/26 09:06
# EPPC-OASIS:面向电子患者-提供者通信挖掘的本体感知自适应与结构化推理优化(用于安全消息中) 来源:https://arxiv.org/html/2605.24172 [1] 机构=耶鲁大学,城市=纽黑文,州=康涅狄格州,国家=美国 [2] 机构=凯斯西储大学克利夫兰诊所勒纳医学院,克利夫兰诊所,城市=克利夫兰,州=俄亥俄州,国家=美国 [3] 机构=耶鲁大学医学院医学肿瘤科,城市=纽黑文,州=康涅狄格州,国家=美国 \cortext [1]通讯作者:Samah Fodeh,耶鲁大学,纽黑文,康涅狄格州,美国。 Sreeraj Ramachandran · Elyas Irankhah · Muhammad Arif · Afshan Khan · Ganesh Puthiaraju · Linhai Ma · Srivani Talakokkul · Jordan Alpert · Sarah Schellhorn [[[ ###### 摘要 安全的患者-提供者消息中包含临床上重要的通信行为,但手动大规模标注这些行为十分困难。电子患者-提供者通信(EPPC)框架提供了一种用于编码这些行为的本体,但自动化提取仍然具有挑战性,因为预测必须保留细粒度的代码/子代码结构,同时将标注锚定在消息文本中。我们开发了 EPPC-OASIS,一种面向本体的自适应方法,用于结构化 EPPC 提取,并结合了可部署的推理优化程序,旨在提高最终标注的一致性。EPPC-OASIS 在有监督微调的基础上增加了 Wasserstein 对齐目标,鼓励模型表示邻域与 EPPC 本体派生邻域之间的对齐;而推理优化则使用验证、自一致性、混合校正以及选择或集成策略来解决残留预测错误。我们在一个去标识化的安全患者-提供者消息语料库上,针对多种开源语言模型,将所提框架与基于提示、有监督微调、基于偏好和面向鲁棒性的基线进行了评估。在各模型族中,最佳的可部署流水线达到了 77.13% 的代码+子代码 F1 和 63.83% 的三元组 F1,相比最强的有监督微调基线,分别获得了 +1.39 和 +2.12 个 F1 点的适度但一致的绝对提升。这些结果表明,面向本体的自适应结合结构化推理优化能够支持可扩展的回顾性 EPPC 挖掘,但在投入实际使用前仍需进行外部验证。 ###### 关键词:电子患者-提供者通信 · 安全消息 · 临床自然语言处理 · 大语言模型 · 本体感知学习 · 结构化临床信息提取 ## 1 引言 安全的患者-提供者消息已成为门诊护理的常规组成部分,创建了传统就诊之外的临床通信纵向记录[cronin2015securemessaging, huang2022securemessages]。这些消息不仅包含信息请求和临床医生回复,还包含护理协调、后勤障碍、情绪关切、社会需求和共同决策的证据[north2020securemessages]。电子患者-提供者通信(EPPC)框架提供了一种结构化方式来表征这些通信行为[fodeh2026eppcminerben, fodeh2026pvminer, fodeh2026pvminerllm, fodeh2026tab, fodeh2026stardro],但手动 EPPC 编码难以大规模应用于消息语料库。因此,可靠的自动化 EPPC 提取可以支持回顾性通信研究、质量测量以及患者与护理团队之间信息交换的队列级分析[agrawal2022clinicalie, wang2022hpt, u2023instances, welleck2022selfcorrect]。 自动化 EPPC 提取具有挑战性,因为该任务不仅仅是给消息分配单个标签[tsoumakas2007multilabel]。每个预测必须识别文本中表达的通信行为,将其映射到相应的高级 EPPC 代码和子代码,并提供来自原始消息的支持证据[deyoung2020eraser, agrawal2022clinicalie]。这些要求很难同时满足。EPPC 标签是分层的、不平衡的,并且常常语义相近,而单个消息段可能包含多种以紧凑或非正式语言表达的通信行为[xu2021hierarchical]。因此,模型错误往往是结构性的而非随机的:预测可能恢复了总体通信意图,但选择了错误的子代码,遗漏了低频行为,或者分配了正确的标签但将其锚定在不完整或不匹配的证据上[henning2023classimbalance, blanchard2022keyword]。 近期工作已将 EPPC 提取确立为评估大语言模型在结构化患者-提供者通信编码方面性能的基准任务,表明现代指令调优模型可以恢复有临床意义的通信行为,但在细粒度标签和证据锚定方面仍存在困难[fodeh2026eppcminerben]。相关的面向鲁棒性的工作进一步表明,在 EPPC 标签空间的困难或代表性不足部分,性能表现不均匀[fodeh2026stardro]。总之,这些研究推动了使用 LLM 进行可扩展的 EPPC 挖掘,但也暴露了两个方法论空白。首先,标准提示或有监督微调主要将每个目标标注视为输出序列,而不是利用 EPPC 本体来塑造相关示例和标签在自适应过程中的表示方式。其次,推理通常被视为单次生成步骤,尽管 EPPC 错误通常分为标签一致性失败和证据锚定失败,这两种错误可能受益于不同的校正机制。 在本研究中,我们开发并评估了一种用于从去标识化的患者-提供者消息中进行结构化 EPPC 提取的两阶段方法。第一阶段,EPPC-OASIS,通过在本体感知的 Wasserstein 对齐基础上增强有监督微调,使模型不仅学习重现目标标注,还使学习到的表示邻域与 EPPC 代码和子代码库存所隐含的邻域对齐[cuturi2013sinkhorn]。第二阶段应用可部署的结构化推理优化,使用验证、自一致性、混合校正和选择程序来解决标签分配和证据锚定中的残留错误[wei2023cot, wang2023selfconsistency, madaan2023selfrefine]。我们使用可部署的代码/子代码和三元组级提取指标对该方法进行评估,目标是改进面向本体一致的 EPPC 挖掘,以用于回顾性临床通信研究。 本研究有四个贡献: 1. 我们引入 EPPC-OASIS,一种面向本体的自适应方法,利用 EPPC 代码和子代码库存的结构在微调期间定义 Wasserstein 对齐目标。 2. 我们开发了一个结构化推理优化框架,结合了自验证、自一致性、混合标签校正以及可部署的选择或集成策略,以改进最终的结构化 EPPC 标注集。 3. 我们针对多个开源模型族,将所得流水线与基于提示、有监督微调、基于偏好和面向鲁棒性的基线进行了评估。 4. 我们提供了消融和诊断分析,分离了本体感知训练与推理时优化的效果,并区分了可部署流水线性能与组件级诊断上界。 ## 2 方法 ### 2.1 研究设计与设定 本研究设计为一项回顾性方法论评估,旨在从去标识化的安全患者-提供者消息中自动化提取 EPPC。在 EPPC 框架内,每个带标注的消息段被视为一个结构化通信编码实例,从而使我们能够评估语言模型方法从先前编码数据中恢复本体指导的通信行为的程度。所有模型开发均使用固定的训练数据,最终性能在未用于模型选择的保留测试集上评估。因此,本研究侧重于方法开发和回顾性信息学应用,而非临床决策支持部署或面向患者的建议生成。图1 (https://arxiv.org/html/2605.24172#S2.F1) 展示了整体研究流程,包括本体感知自适应和结构化推理优化。 ### 2.2 EPPC 标注模式与预测目标 本研究基于 EPPC 标注框架,将每个安全消息摘录视为一项结构化临床通信编码任务。对于每个实例,模型被提供相关的患者-提供者消息上下文以及需要编码的句子或消息段。预期输出是一个 JSON 标注,列出该段中表达的任何 EPPC 类别。每个标注包括一个高级代码(Code)、一个更具体的子代码(Sub-code)以及从原始消息中复制的一段支持性文本跨度(Span)。Code 和 Sub-code 标识通信行为,而 Span 将该标签锚定在源文本中。这种表述保留了手动 EPPC 编码的结构,同时允许将任务评估为自动化结构化提取。 为了使模型输出与手动标注可比,所有预测都针对一个公共结构化模式进行评估。有效响应被定义为包含 results 字段的 JSON 对象,该字段包含标注列表,每个标注包括 Code、Sub-code 和 Span。Code 和 Sub-code 必须来自预定义的 EPPC 标签库存,每个子代码相对于其父代码进行解释。没有适用 EPPC 类别的段由空 results 列表表示。 尽管任务具有结构化输出格式,我们在主要实验中并未使用约束解码。相反,模型正常生成响应,生成的文本在评分前被解析为目标模式。这一选择基于初步比较,其中引导解码提高了 JSON 格式正确性,但并未提高本研究中使用的提取指标。因此,我们对轻微的格式偏差使用了轻量级的事后恢复,包括从 Markdown 代码块或周围解释性文本中提取 JSON。在此恢复步骤后无法解析的输出被视为无效预测。 参见图注 图 1:所提出的 EPPC-OASIS 框架概述,用于从安全患者-提供者消息中进行结构化 EPPC 提取。工作流程包括两个主要阶段:训练期间的本体感知自适应和推理期间的结构化推理优化。训练阶段使用 EPPC 本体层次结构和本体感知表示对齐,将安全消息输入转换为结构化 JSON 标注。然后使用带有本体约束学习信号的有监督微调来适配指令调优的开源 LLM。在推理期间,该框架应用多种结构化优化策略,包括思维链-自精炼(CoT-SR)验证与精炼、自一致性采样、混合精炼、候选聚合以及基于选择器/重排序器的预测选择。最终输出是符合模式的结构化 EPPC 预测,包含 Code、Sub-code 和支持证据 Span 标注。 ### 2.3 数据集 本研究中使用的数据集来源于耶鲁纽黑文医院患者门户中经去标识化的安全患者-提供者消息,遵循先前 EPPCMinerBen 工作中建立的 EPPC 数据源和标注框架[fodeh2026eppcminerben]。该语料库捕捉了患者与临床团队之间的异步通信,包括信息交换、护理协调、社会情感沟通、伙伴关系建立和共同决策行为。每个标注实例被转换为结构化提取示例,其中消息上下文作为输入,相应的 EPPC 标注作为目标输出。 最终数据集包含 867 个带标注示例和 5,516 个 EPPC 标注,涵盖 9 个高级代码、34 个子代码以及 52 个观察到的代码/子代码组合。我们使用 70:30 的分层训练-测试划分进行模型开发和评估。有关数据集创建方法的完整细节,包括 IRB 批准、知情同意豁免、标注者裁决协议、去标识化程序和患者级统计,我们请读者参考基础基准研究[fodeh2026eppcminerben]。表1 (https://arxiv.org/html/2605.24172#S2.T1) 总结了数据集特征,图2 (https://arxiv.org/html/2605.24172#S2.F2) 显示了高级 EPPC 代码及其观察到的子代码的层次分布。 表 1:EPPC 提取语料库的数据集特征。 | 特征 | 值 | |------|-----| | 语料库大小 | | | 带标注示例 | 867 | | EPPC 标注数 | 5,516 | | 每个示例的标注数 | 平均值 6.36;中位数 5 | | 标签库存 | | | 高级代码 | 9 | | 子代码 | 34 | | 观察到的代码/子代码对 | 52 | | 标签分布 | | | 最频繁的高级代码 | InfoGive:2,270 (41.2%) | | 最不频繁的高级代码 | InfoSeekSDOH:41 (0.7%) | | 最频繁的子代码 | Diagnostics:629 (11.4%) | | 最不频繁的子代码 | Sadness/Fear:3 (0.1%) | | 证据与评估划分 | | | 证据跨度长度 | 平均值 3.96;中位数 4;IQR 2–5 词 | | 训练-测试划分 | 70:30 分层;607 训练 / 260 测试示例 | 参见图注 图 2:EPPC 代码和子代码标注的层次分布。左面板显示所有 5,516 条标注中父代码的普遍性。右面板显示各父代码下的子代码组成。 ### 2.4 基线与比较方法 为了将 EPPC-OASIS 的性能置于上下文中,我们沿着两个轴比较了方法:模型如何适应 EPPC 任务,以及推理时如何产生预测。提示基线,包括零样本和少样本变体,评估了指令调优语言模型仅依据任务指令和示例应用 EPPC 模式的能力。有监督适应基线衡量了直接从带标注的 EPPC 示例中学习的好处,包括使用相同输入-输出格式的标准有监督微调和 token 级偏好优化方法[rafailov2024dpo, meng2024simpo]。我们还纳入了 STaR-DRO 作为一种先前的面向鲁棒性的比较方法,在相同的提取设置下[fodeh2026stardro]。最终比较则评估了应用于适配模型的结构化推理优化程序,使我们能够分离任务特定训练、本体感知表示学习和推理时校正或聚合带来的改进。 我们在指令调优的开源模型上评估了可训练方法,这些模型旨在反映临床 NLP 研究的实际部署和规模设定。主要的 Llama 和 Mistral 模型集包括 Llama-3.2-1B-Instruct、Llama-3.2-3B-Instruct、Llama-3.1-8B-Instruct、Mistral-Small-24B-Instruct 和 Llama-3.3-70B-Instruct[grattafiori2024llama3, meta2024llama32card, meta2024llama33card, mistral2025smallcard]。这些模型涵盖了轻量级本地实验、中规模任务特定适应和高容量参考设定。为了评估观察到的模式是否特定于单一模型族,最终的模型规模分析还包括了 Qwen2.5-Instruct 模型(3B、7B 和 32B 参数)以及 DeepSeek-R1-Distill-Llama-70B[yang2025qwen25, deepseek2025r1]。这一扩展集使我们能够评估并验证本体感知自适应和结构化推理优化是否具有泛化能力。
相似文章
COTCAgent:基于概率链式思维完成的预防性咨询
COTCAgent是一个用于纵向电子健康记录的分层推理框架,采用概率链式思维完成方法,在自建数据集上达到90.47%的Top-1准确率,超越了现有的医疗代理。
AIPatient Arena:基于电子健康记录的大语言模型在端到端临床咨询工作流中的评估
介绍了AIPatient Arena,一个基于电子健康记录的评估框架,用于评估大语言模型在临床能力的多个维度。研究揭示了在问诊和伦理方面的优势,但在处理模糊性和诊断准确性方面的弱点。
PORTER: 基于语言的事件表示实现可移植结构化电子病历基础模型
PORTER是一种基于语言的结构化电子病历基础模型,通过文本描述和数值表示临床事件,能够实现跨机构的词汇无关迁移,无需重新训练。在儿科预测任务中,PORTER与固定词汇模型性能相当,并在迁移至未见事件描述时恢复了97.1%的AUROC。
OncoAgent:用于保护隐私的肿瘤临床决策支持的双层多智能体框架
本文介绍了 OncoAgent,这是一种专为肿瘤学隐私保护临床决策支持设计的双层多智能体框架。文章详细阐述了结合修正型 RAG、反思安全循环以及针对 AMD 硬件优化的双层 QLoRA 微调的系统架构。
ChatHealthAI: 将电子健康记录表示与大型语言模型对齐以实现基于临床的推理
ChatHealthAI 是一个多模态推理框架,它将结构化 EHR 表示与冻结的 LLM 对齐,从而在保持预测性能的同时实现基于临床的推理。