临床随访指令的可靠提取：一种混合神经符号流水线

arXiv cs.CL 2026/05/27 04:00 论文

摘要

本文提出了一种混合神经符号流水线，用于从临床笔记中提取随访指令，使用BioBERT和确定性日期算术。与生成式基线相比，实现了高性能（Pair F1约0.99）。

arXiv:2605.26560v1 公告类型：新摘要：目标。门诊笔记包含将动作与未来时间配对的随访指令（"两周后做脑部MRI"）。提取（动作，日期）对支持日程安排和审计，但生成式提取器会遗漏日期，因为连接和算术在解码中是隐式的。我们测试了一种混合神经符号流水线与直接生成对比。方法。我们定义了TestSpecification和TimeSpecification实体以及ScheduledFor关系。BioBERT提供BIO标注和双仿射链接器；实体通过28动作本体规范化，时间通过确定性方式归一化为天数偏移。我们在一个包含2000条笔记的合成门诊语料库上进行评估，采用动作不相交分割（18个训练，6个OOV测试），与零样本GPT-4o-mini和LoRA微调的LLaMA-3 8B进行对比，并计算笔记级bootstrap 95%置信区间。结果。在259条笔记的已见和OOV分割上，混合流水线实现了测试时Pair F1分别为0.997和0.986，MAE为0.00天。基线达到了较高的动作F1（LLaMA-3 0.992；GPT-4o-mini 0.963已见），但Pair F1保持在0.51-0.57（LLaMA-3）和0.53（GPT-4o-mini），置信区间与混合流水线无重叠。结论。将学习到的实体提取与确定性日期算术分离，在此基准上优于生成方法，能够泛化到保留动作，并暴露失败模式。转移到真实EHR笔记是下一步验证；初步的真实性检查在局限性部分。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:07

# 临床随访指令的可靠提取：一种混合神经符号管道
来源：https://arxiv.org/abs/2605.26560
查看PDF（https://arxiv.org/pdf/2605.26560）

> 摘要：目的。门诊记录包含将操作与未来时间配对的随访指令（如“两周内进行脑部MRI”）。提取（操作，日期）对有助于调度和审计，但生成式提取器会遗漏日期，因为链接和计算在解码过程中是隐式的。我们测试了一种混合神经符号管道，并将其与直接生成方法进行对比。方法。我们定义了TestSpecification和TimeSpecification实体以及ScheduledFor关系。BioBERT为BIO标注提供支持，并采用双仿射链接器；通过包含28个操作的语义本体对实体进行标准化，并以确定性方式将时间归一化为日偏移量。我们在一个包含2,000份笔记的合成门诊语料库上进行评估，该语料库采用操作不重叠的分割（18个训练集，6个OOV测试集），并与零样本GPT-4o-mini以及经过LoRA微调的LLaMA-3 8B模型进行比较，使用笔记级Bootstrap 95%置信区间。结果。在包含259份笔记的已知和OOV分割上，混合管道实现了测试-时间对F1分数为0.997和0.986，MAE为0.00天。基线模型达到了较高的操作F1分数（LLaMA-3为0.992；GPT-4o-mini为0.963，已知数据），但操作对F1分数仅维持在0.51-0.57（LLaMA-3）和0.53（GPT-4o-mini），置信区间与混合管道不重叠。结论。将学习的实体提取与确定性日期计算分离，在此基准测试上优于生成方法，能够泛化到未见的操作，并暴露了失败模式。下一步验证是将其迁移到真实EHR笔记；限制条件中提供了初步的真实性检验。

## 提交历史

来自：Yehudit Aperstein [查看电子邮件](https://arxiv.org/show-email/0d2b913b/2605.26560) **\[v1\]** 2026年5月26日，星期二 05:14:33 UTC（939 KB）

临床随访指令的可靠提取：一种混合神经符号流水线

相似文章

用于模式约束临床信息抽取的检索增强型大语言模型

用于改进临床试验工作流程准确性和效率的AI辅助协议信息提取

训练大型语言模型预测临床事件

基于 GPT-5.5 构建：Abridge 临床 AI 笔记

BeLink：生物医学实体链接结合生成式重排序

提交意见反馈