sebis 在 CRF 填充 2026:一种用于医疗 CRF 填充的两阶段本地 LLM 流水线
摘要
本文介绍了一种完全本地化的两阶段 LLM 流水线,使用 MedGemma-27B 从临床笔记中填充病例报告表,在英文测试轨道上实现了 0.55 的宏观 F1 分数,并在本地开源提交中获得了第二名。
arXiv:2606.13082v1 公告类型:新
摘要:从非结构化电子健康记录笔记中提取结构化临床信息一直是医疗信息学中的持续瓶颈。尽管大型语言模型(LLM)提供了高性能,但它们在临床环境中的部署受到隐私风险、推理成本以及倾向于在文本证据之外产生幻觉的阻碍。我们针对 CL4Health 2026 病例报告表(CRF)填充任务解决了这些挑战,提出了一种完全本地化、领域适应的流水线,使用 MedGemma-27B 模型。我们的两阶段架构将二元存在性分类与值提取分开,强制严格遵循文本证据,并确保对否定、不确定或未知状态产生确定性输出。通过利用特定项目的少样本上下文学习,无需外部 API 调用或微调,我们的方法在官方英文测试轨道上实现了 0.55 的宏观 F1 分数。这一结果在所有本地托管、开源提交中获得了第二名。我们的工作表明,保护隐私的本地 LLM 流水线可以实现与专有前沿模型接近的竞争性能,为临床 NLP 提供了一个实用的数据主权框架。
查看缓存全文
缓存时间: 2026/06/12 08:51
# sebis 在 CRF 填写 2026 中的工作:一个用于医学 CRF 填写的两阶段本地 LLM 流水线
来源:https://arxiv.org/html/2606.13082
###### 摘要
从非结构化的电子健康记录(EHR)笔记中提取结构化的临床信息,仍然是医疗信息学中的一个持续瓶颈。尽管大语言模型(LLM)表现出高性能,但它们在临床环境中的部署受到隐私风险、推理成本以及倾向于生成超越文本证据的幻觉的限制。我们针对 CL4Health 2026 病例报告表(CRF)填写任务,通过提出一个完全本地化、领域自适应的流水线(使用 MedGemma-27B 模型)来应对这些挑战。我们的两阶段架构将二元存在性分类与值提取分开,强制严格遵循文本证据,并确保对被否定、不确定或未知状态的确定性输出。通过利用特定项目的小样本上下文学习,无需外部 API 调用或微调,我们的方法在官方英文测试轨道上获得了 0.55 的宏 F1 分数。这一结果在所有本地托管的开源提交中位居第二。我们的工作表明,保护隐私的本地 LLM 流水线可以在性能上接近专有前沿模型,为临床 NLP 提供了一个实用且数据主权完整的框架。
关键词:临床 NLP,大语言模型,病例报告表,小样本学习,本地 LLM
sebis 在 CRF 填写 2026 中的工作:一个用于医学 CRF 填写的两阶段本地 LLM 流水线
Katharina Sommer†, Tristan Till†, Florian Matthes
Technical University of Munich, TUM School of Computation, Information and Technology
\{kathi.sommer, tristan.till, matthes\}@tum.de
摘要内容
22脚注:这些作者对本文贡献均等。
## 1. 引言
从非结构化的自由文本笔记中提取结构化的临床信息,仍然是医疗信息学中的一个持续瓶颈。电子健康记录(EHR)包含在高容量环境(如急诊科)中产生的丰富患者叙述,但将这些叙述转换为标准化的、适用于研究的格式需要临床医生或经过培训的摘录员进行繁琐的人工审查。病例报告表(CRF)体现了这一挑战:它们是预先定义好的、针对特定研究的工具,要求对每位患者的数十个变量(如合并症、生命体征、实验室值、症状慢性程度)进行一致的编码。CL4Health 2026 研讨会上的 CRF 填写共享任务直接针对这一痛点,要求参与者仅使用英文或意大利文撰写的临床笔记,自动填充急诊科呼吸困难患者的 CRF。成功完成该任务将加速观察性研究,减轻文档负担,并实现实时的、对患者友好的摘要。
虽然传统的基于规则和监督的临床信息提取系统在狭窄领域内实现了高精度,但它们缺乏在多样化临床环境中所需的可扩展性和零样本灵活性。通过商业 API 访问的大语言模型提供了令人印象深刻的灵活性,但在实际部署中引入了关键缺陷,例如敏感患者数据离开机构防火墙时的隐私和监管风险、大规模推理成本高昂和延迟、以及不受控制的幻觉或假设,这些违反了 CRF 填写的严格“不推断超出文本”的要求。
我们的提交通过一个完全本地化、领域自适应的 LLM 流水线填补了这些空白,该流水线只需要官方训练集进行小样本指导。通过利用开源权重的 MedGemma-27B 模型,我们保证了数据主权和 HIPAA/GDPR 合规性,同时保持了通用模型所缺乏的临床领域知识。两阶段架构(先进行存在性分类,然后进行值提取),结合精心设计的提示和每个项目的小样本范例,强制严格遵守文本并消除无关输出。这种设计对于共享任务来说是新颖的,并且在医院环境中是实际可部署的。总之,我们的核心贡献是:(1) 在严格的隐私约束下,使用本地托管的医学 LLM 进行 CRF 填写的应用演示;(2) 一个可复用的、先分类后提取的提示框架,在单次推理中处理二元存在性检测、分类选择以及连续的“测量”值;以及 (3) 一个高效、零训练的实施方案,在英文轨道上取得了有竞争力的性能,同时尊重任务对最小监督的要求。
图 1:两阶段分类后提取流水线的概述。对于每个临床笔记和 CRF 项目,系统首先通过分类提示确定存在性。如果存在性得到确认,系统进入值提取阶段,输出特定的分类值或测量值。
图 2:四种项目类型在训练集中的标签分布。数据集存在严重的类别不平衡,其中“unknown”占标签的绝大多数,这强调了在提取过程中最小化误报的挑战。
## 2. 相关工作
大语言模型(LLM)已将小样本提示确立为在资源受限条件下进行临床信息提取的强大范式。Agrawal 等人(2022)证明,像 InstructGPT 这样的模型可以直接从非结构化笔记中实现强大的零样本和小样本性能,用于临床实体和关系提取,仅依赖上下文示例,无需任何微调。这种方法与 CL4health CRF 填写的要求高度一致,系统必须尊重严格的文本证据,处理否定和不确定性,并在多个预定义项目上输出确定性值。
进一步的研究解决了保护隐私部署的关键需求,专注于完全本地化的开源 LLM。Wiest 等人(2024)引入了 LLM-AIx,一个基于 Llama 2 的本地流水线,用于从临床自由文本中提取结构化信息,同时将所有患者数据保留在机构基础设施内。这项工作由 Builtjes 等人(2025)扩展,他们表明开源生成式 LLM 在资源和多语言受限环境下,在临床提取基准测试中提供了可行的零样本性能。Richter-Pechanski 等人(2025)通过轻量级微调本地模型(基于英文和德文语料库),在端到端药物信息提取上取得了新的最先进结果。
领域专门的医学 LLM 进一步缩小了通用模型与临床精度之间的差距。MedGemma-27B(Sellergren 等人,2025)专门针对医学文本进行了优化,在临床推理和提取基准测试中确立了领先性能,同时保持完全开源权重且可本地部署。我们的两阶段分类后提取流水线正是利用了这个模型的量化本地部署版本,综合了 Agrawal 等人(2022)展示的小样本灵活性、本地开源流水线的隐私保证以及 MedGemma 的领域知识,为 CRF 填写共享任务提供了一个实用的解决方案。
图 3:CL4Health 2026 CRF 填写排行榜示意图,按检测语言以及开源 vs. 闭源模型划分。平均而言,意大利语测试集的结果优于英语子集。类似地,使用闭源模型平均获得了更高的宏 F1 分数。我们的方法在英文开源模型提交中排名第 2,总体排名第 17。
## 3. 方法论
### 3.1. 数据
我们使用为共享任务发布的官方英文轨道数据集。训练集包含临床笔记以及结构化为字典列表的金标准注释。测试集提供原始临床笔记和提交所需的文档标识符。没有添加合成数据或外部语料库,以保持任务的低资源精神。注意,图 2 显示了每个样本、每个 CRF 项目基础上的严重类别不平衡,其中“unknown”占主导地位。
### 3.2. 模型
推理使用经过指令微调的 MedGemma-27B(GGUF Q8_K_XL 量化),温度设置为 0。
### 3.3. 流水线架构
该系统实现了一个两阶段的、按文档、按项目的循环,如图 1 所示。该方法的算法如算法 1 所示。
#### 存在性分类阶段:
我们为训练集中的每个类别构建 10 个小样本示例。由于训练集仅包含 10 个样本,我们使用每个样本为每个类别构建一个小样本示例。然后,将真实标签二值化,以指示真实值是已知的(即答案为“unknown”)还是实际值。对于“unknown”,我们将二元标签设置为 n,对于所有其他情况,设置为 y。一个分类提示指示模型仅返回一个字符(y/n),并包含关于否定和不确定性的明确指令。如果模型响应为 y,我们进入值提取阶段。否则,记录“unknown”并中止循环。
#### 值提取阶段:
我们使用实际真实值构建另一个 10 个小样本示例,现在包含完整选项或“measured”字符串。如果目标项目的选项列表以“measured”开头,我们调用一个特殊的测量值提示,要求模型提取具体数值。否则,调用一个分类选项列表提示,列出所有允许的选项并强制选择其中一个。
算法 1 两步骤 LLM 提取流水线(每个文档)
1: 临床笔记 T,选项表 O
2: 预测结果 P
3: P ← ∅
4: 对于 O 中的每一行 r,执行
5: i ← r.item
6: opt ← r.options
7: ▷ 步骤 1:存在性分类
8: fs_c ← create_few_shot(i)
9: p_c ← create_prompt_classification(i, T, fs_c)
10: ŷ ← LLM(p_c)
11: 如果 ŷ = ‘y’ 则
12: ▷ 步骤 2:值提取
13: fs_v ← create_few_shot(i, opt)
14: 如果 opt = “measured” 则
15: p ← prompt_measured(i, T, fs_v)
16: 否则
17: p ← prompt_answer(i, opt, T, fs_v)
18: 结束如果
19: v̂ ← LLM(p)
20: 否则
21: v̂ ← “unknown”
22: 结束如果
23: P ← P ∪ {(i, v̂)}
24: 结束对于
25: 返回 P
表 1:在内部开发集上进行的消融实验,量化了两阶段架构和小样本提示对性能指标(宏 F1、TPR、FPR 和 FNR)的影响。基线是零样本 MedGemma-27B 模型。结果表明两阶段把关机制的附加益处,降低了假阳性率,并提升了召回率和总体 F1。
## 4. 结果
### 4.1. 排行榜结果
我们的最终提交在 CL4Health 2026 CRF 填写共享任务的官方隐藏测试集上获得了 0.55 的宏 F1 分数。如图 3 所示,这一结果使我们在全球总共 32 个提交中排名第 17。限制在仅英文轨道时,我们在 22 名参与者中排名第 11。最重要的是,在提交到英文轨道的七个完全本地化和开源系统中,我们基于 MedGemma 的流水线获得了坚实的第二名,与顶级本地开源参赛作品(0.57)的宏 F1 分数差距在 0.02 以内,同时比总体冠军(一个闭源英文系统,0.68)落后超过 0.13 分。这些排名突显了我们的保护隐私、本地部署方法在不依赖外部 API 或专有模型的情况下提供了极具竞争力的性能。
### 4.2. 开发阶段消融实验
为了证明每个设计决策的合理性,我们在从官方训练集派生的内部开发集上进行了系统性消融实验。从朴素的零样本 MedGemma-27B 基线(宏 F1 = 0.330)开始,仅添加两阶段分类后提取架构就将性能提升至 0.423,这证实了在尝试值提取之前先验证存在性,能显著减少对不存在项目的误报预测。在不采用两阶段设计的情况下,整合特定项目的 10 样本示例进一步将分数提升至 0.572,证明了上下文学习的关键价值。最后,包含两阶段提示和小样本示例的完整流水线达到了 0.604 的宏 F1(比仅小样本变体高 0.032),证明所有组件都是累加作用的。这些增益直接促使了我们最终的架构设计,并解释了为什么相同的流水线转化为了上述报告的强大排行榜排名。
## 5. 讨论
排行榜结果(图 3)证实了闭源模型和开源模型之间存在性能差距。虽然专有前沿模型在规模和调优上保持优势,但我们在本地开源提交中获得的第二名表明,像 MedGemma-27B 这样的领域自适应模型可以实现在性能上接近有竞争力的水平,同时保持数据主权——这是临床部署的一个要求。
消融研究(表 1)量化了我们流水线的累加益处。朴素的零样本基线过于保守,错过了大多数阳性病例。整合小样本示例提供了最大的单一增益,教会模型识别阳性证据。单独来看,两阶段把关机制通过减少虚假提取提高了精确率。整合两个组件产生了最优的错误分布,证实小样本指导教会了检测,而分类阶段则作为防止过度预测的过滤器。
我们开发过程中的主要挑战是减轻误报,特别是模型倾向于过度解释被否定或远距离提及作为阳性证据。可靠地区分被排除的标签和缺失信息仍然是临床 NLP 中的一个已知难点。我们通过明确的否定/不确定性指令、两阶段把关机制和严格的输出约束来应对这一点。尽管有这些改进,该模型相似文章
缩小CRAC 2026差距:基于LLM的多语言共指解析的两阶段自适应方法
本文提出了一种基于LLM的多语言共指解析的两阶段自适应方法,在CRAC 2026的LLM赛道中以74.32的CoNLL F1分数获得第一名。该方法使用多语言基适配器后接数据集特定适配器对Gemma-3-27b进行微调。
完全开放的 Meditron:用于临床 LLM 的可审计管道
介绍了完全开放的 Meditron,这是首个用于构建临床 LLM 的完全开放管道,具有临床医生审核的训练语料库和可重现框架,在全开放医学专科模型中达到领先水平。
用于生物医学声明验证的小型LLM:经济高效的微调、结构化数据集捷径与跨域泛化
使用QLoRA对小型LLM(3B-7B)进行生物医学声明验证的微调,以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数,并揭示了SciFact中的一个结构伪影。该研究表明,在结构合理的数据上进行训练可实现稳健的跨域迁移。
LLMBridge:面向英语端到端指称桥接解析的LLM流水线
LLMBridge 提出了一种基于LLM的端到端指称桥接解析流水线,在三个英语数据集上取得了最先进的性能。该系统将启发式预处理/后处理与LLM自然语言推理相结合。
用于模式约束临床信息抽取的检索增强型大语言模型
本文提出了一种模块化的检索增强生成(RAG)流水线,用于从护理人员与患者的对话转录中提取结构化临床观察结果,采用模式约束提示和第二遍审核,基于Llama和GPT骨干模型,取得了80.36%的F1分数。