面向FHIR问卷术语绑定的迁移学习
摘要
本文探讨了使用检索方法将FHIR问卷项目映射到LOINC代码的迁移学习,在小型评估集上比较了六种方法。
查看缓存全文
缓存时间: 2026/06/16 11:48
# FHIR 问卷术语绑定的迁移学习
来源:https://arxiv.org/html/2606.15449
###### 摘要
电子预授权工作流要求 FHIR 问卷项带有 LOINC 代码,然而 HL7 Da Vinci CDS-Library 中的大部分项缺少这些绑定。我们将其视为一个检索问题:给定一项问卷文本,在包含 97,314 个活动代码的候选池中找出正确的 LOINC 代码。我们比较了六种方法(TF-IDF、冻结的 MiniLM、BioBERT、BioLORD、对比微调的 MiniLM 以及 TF-IDF+GPT 重排序器),评估集包含 54 个项,涵盖三种查询风格(自然问题、中等长度、简洁)。没有一种方法在所有指标上都胜出。BioLORD 是一个在生物医学本体定义上预训练的冻结编码器,尽管没有见过任务特定的数据,却在最高排名准确率上表现最佳(R@1 = 0.185, MRR = 0.246),而对比微调在原始 LHC-Forms 配对数据上训练,在 R@5(0.389)和 R@10(0.426)上较优。分布偏移消融实验说明了为什么我们主表中的微调模型并非最强:在原始配对中加入 GPT 生成的释义后,R@5 从 0.389 降至 0.296,因此除了 R@1 外,经增强的联合数据集在所有指标上都不如仅用原始数据的训练。性能在 5k 训练配对时达到峰值。对 BioLORD 在 R@1 上的失败案例进行错误分析,发现错误特异性和模糊文本这两种情况共占错误的 59%。
## 1 引言
FHIR 问卷是机器可读的表单,用于驱动电子预授权工作流。问卷中的每个问题都需要一个标准化代码(通常来自 LOINC),以便下游表单预填充引擎能在患者的 EHR 中找到匹配的数据。如果没有该代码,表单在语法上是有效的,但预填充引擎无法知道要查找什么。
实际上,大多数问卷都缺少这些绑定。在 HL7 Da Vinci CDS-Library (HL7 Da Vinci Project, (https://arxiv.org/html/2606.15449#bib.bib4))(一个预授权的参考实现 (HL7 International, (https://arxiv.org/html/2606.15449#bib.bib7)))中,12 个实质性规则集包含 702 个可编码项,其中只有 39 个(5.6%)带有明确的 `item.code` 绑定,而这些绑定的代码中只有 21 个是真正的 LOINC 代码。当前创作工具将绑定步骤留给人工处理。
本项目将问题框架化为检索:给定一项问卷文本,在固定的候选池中找到正确的 LOINC 代码。我们基于 NLM LHC-Forms FHIR 服务 (Lister Hill National Center for Biomedical Communications, NLM/NIH, (https://arxiv.org/html/2606.15449#bib.bib5)) 中的(项文本,LOINC 代码)配对进行训练,该服务包含 3,413 份几乎完全覆盖 LOINC 的问卷,并在带有确认 LOINC 代码的 CDS-Library 项上进行评估。
核心难点在于风格不匹配:LHC-Forms 文本是 LOINC 概念名称风格(例如,“Breath H2 pre carb”、“Weight”),而 CDS-Library 项是临床医生撰写的提问(例如,“Was arterial blood gas study ordered and evaluated?”)。在简洁概念名称上训练的检索器不会自动迁移到自然问题查询。
我们的贡献包括:(1)一个 54 项评估集,从三种 CDS-Library 提取方法中构建,包括通过 CQL 预填充表达式追踪到的 28 个项;(2)六种检索方法在三种查询风格上的比较;(3)一项分析表明,领域预训练在最高排名准确率(R@1 和 MRR)上胜出,而在原始领域内配对上的微调则在排名 5 和 10 的召回率上胜出;并且当训练和评估数据共享词汇结构时,释义增强会降低性能。
## 2 相关工作
#### 双编码器检索。
Karpukhin 等人 (2020 (https://arxiv.org/html/2606.15449#bib.bib1)) 引入了密集段落检索,将查询和文档编码到共享的嵌入空间中,并通过点积进行排序。Reimers 和 Gurevych (2019 (https://arxiv.org/html/2606.15449#bib.bib8)) 表明,BERT 风格的编码器需要对比式句子级别的训练才能产生有意义的余弦相似度排名。
#### 生物医学编码器。
BioBERT (Lee 等人, 2020 (https://arxiv.org/html/2606.15449#bib.bib9)) 通过在 PubMed 和 PMC 上继续预训练来适应 BERT。BioLORD (Remy 等人, 2022 (https://arxiv.org/html/2606.15449#bib.bib3)) 将表示基于本体定义和知识图谱结构,我们的结果表明它非常适合 LOINC。
#### 领域适配与 LLM。
GPL (Wang 等人, 2022 (https://arxiv.org/html/2606.15449#bib.bib10)) 合成伪查询来微调密集检索器,无需人工标注;我们的释义增强遵循相同的思路。在 LLM 方面,Li 等人 (2024 (https://arxiv.org/html/2606.15449#bib.bib6)) 表明基于 GPT 的模型可以将临床文本映射到 FHIR 资源,但他们的场景是将文本提取到结构化字段,而不是在 97k 代码词汇表中进行检索。
## 3 方法
### 3.1 数据
#### 候选池。
我们使用完整的 LOINC 版本:97,314 个活动代码,每个代码由 `LONG_COMMON_NAME` 显示字符串表示。这是现实的检索设置,没有对可能代码进行预先过滤。
#### 训练数据。
我们从 NLM LHC-Forms FHIR 服务器中提取(项文本,LOINC 代码)配对,生成来自 3,413 份问卷的 97,430 对。相同的概念在多个问卷中重复出现,因此我们根据(项文本,LOINC 代码)键进行去重,剩下 30,856 个唯一配对,涵盖 29,746 个不同的 LOINC 代码。由于 LHC-Forms 问卷是直接从 LOINC 面板定义生成的,99.99% 的项文本与 LOINC 显示名称相同。天真地在这些配对上进行训练的模型可以学习区分 LOINC 概念,但不会学习从自然问题措辞过渡到 LOINC 词汇。为了解决这个问题,我们使用 GPT-4o-mini 为每个唯一配对生成三个释义(例如,从“Body weight”变为“What is the patient’s current weight?”),遵循 GPL (Wang 等人, 2022 (https://arxiv.org/html/2606.15449#bib.bib10)) 的精神。这增加了 92,564 个释义配对,总训练集为 123,420(30,856 原始 + 92,564 释义)。
#### 评估集。
我们从 CDS-Library 中通过结合三种提取方法构建了一个 54 项评估集:21 个具有显式 `item.code` 且使用 LOINC 系统 URL 的项,5 个 `linkId` 编码了 LOINC 代码(例如,`/20564-1-current`)的项,以及 28 个通过 CQL 预填充表达式追溯到其引用的 LOINC 代码的项。我们根据查询风格标记每个项:以“?”结尾的项为自然问题(n=6),最多 4 个标记的项为简洁(n=34),其余的为中等长度(n=14)。大多数 CDS-Library 项是简洁的,这是最接近 LHC-Forms 训练数据的风格。
### 3.2 检索方法
#### TF-IDF。
基于 LOINC 显示名称的词级 unigram 和 bigram TF-IDF,按余弦相似度排序。这是词汇基线,也是一个自然的下界。
#### 冻结的 MiniLM。
`all-MiniLM-L6-v2` 句子编码器 (Reimers and Gurevych, 2019 (https://arxiv.org/html/2606.15449#bib.bib8)),在通用领域文本对上进行预训练,使用对比目标。
#### 冻结的 BioBERT。
`dmis-lab/biobert-v1.1` (Lee 等人, 2020 (https://arxiv.org/html/2606.15449#bib.bib9)),对最后隐藏状态进行均值池化。
#### 冻结的 BioLORD。
`FremyCompany/BioLORD-2023` (Remy 等人, 2022 (https://arxiv.org/html/2606.15449#bib.bib3)),预训练以将生物医学概念名称与其本体定义和知识图谱邻居对齐。
#### 对比微调(FT)。
我们使用多重负样本排序损失(MNRL)在 LHC-Forms 配对上微调 `all-MiniLM-L6-v2`。MNRL 将批次中的所有其他项视为负样本,对于大型候选池来说效率很高。训练使用批次大小 64,学习率 2×10^{-5},以及 3 个 epoch。除非另有说明,训练数据是原始和释义配对的并集(共 123,420 个)。
#### LLM 重排序器。
TF-IDF 检索前 50 个候选,GPT-4o-mini 通过零样本提示进行重排序。
## 4 实验
### 4.1 主要结果
表 1 (https://arxiv.org/html/2606.15449#S4.T1) 报告了所有六种方法的检索性能。在这六种方法中,BioLORD 在 R@1 (0.185)、R@5 (0.315) 和 MRR (0.246) 上表现最佳,因此一个没有见过我们任务数据的冻结领域编码器在三个指标中的两个上领先于在领域内数据上训练的模型。此表中的对比微调是在原始和释义配对的并集上训练的;它完全赢得了 R@10 (0.370 比 BioLORD 的 0.333),将黄金代码放入前 10 的频率高于任何其他方法。排序并不像单个表看起来那么清晰:表 2 (https://arxiv.org/html/2606.15449#S4.T2) 中仅使用原始数据的微调达到了 R@5 = 0.389 和 R@10 = 0.426,在这两项上超过了 BioLORD,因此 BioLORD 仅在最高排名准确率上保持领先,而在排名 5 和 10 的召回率上则不然。由于只有 54 个评估项,这些差距很小(一个项会使 R@5 改变 1.9 个百分点),因此我们将该表视为粗略的排序而非精确排名。LLM 重排序器在微调方法中 R@1 (0.130) 领先,并且总体上与对比 FT 相当,但在最高排名上输给了 BioLORD。
表 1: 在 54 项 CDS-Library 评估集上的检索性能,使用完整 LOINC 池(97,314 个代码)。最佳结果以粗体显示。参考说明 (a) 所有方法的 R@1、R@5、R@10、MRR。参考说明 (b) 按查询风格的 R@5。所有方法在简洁项(n=34)上表现不佳。
图 1: 主要结果:总体性能(左)和按查询风格(右)。概念家族子指标:如果预测的 LOINC 显示以与黄金代码相同的引导标记开头,则视为成功检索。BioBERT 的精确 R@5 为 0.056,但其家族 R@5 为 0.261,因此它找到了正确的 LOINC 概念家族,但无法区分家族内变体(例如,血氧饱和度与血液中氧分压)。微调的目标因此变成家族内区分,而不是从头学习临床语义。
图 1(b) (https://arxiv.org/html/2606.15449#S4.F1.sf2) 显示了按查询风格的 R@5。BioLORD 在自然问题查询上明显强于任何其他方法。对比 FT 在中等长度项上领先。每种方法在简洁项(占评估集的 63%)上表现不佳,尽管这些项与训练数据的分布漂移最小,但特异性错误占主导地位。
### 4.2 分布偏移消融
表 2 (https://arxiv.org/html/2606.15449#S4.T2) 比较了对比微调的三种训练变体。仅使用原始数据(原始的 LHC-Forms 配对,无释义)是除了 R@1 之外的每个指标上最强的变体:R@5 = 0.389 和 R@10 = 0.426,后者是本文中任何模型或变体的最高 R@10。仅使用释义的模型居中(R@5 = 0.315),而两者的并集在 R@5 = 0.296 时最弱。
表 2: 分布偏移消融(n=54)。仅原始数据在 30,856 个去重配对上训练,仅释义在 92,564 个释义上训练,并集在所有 123,420 个上训练。“Nat.”和“Terse”分别是自然问题(n=6)和简洁项(n=34)按风格的 R@5。“并集”是表 1 (https://arxiv.org/html/2606.15449#S4.T1) 中的方法。我们添加释义是为了弥合简洁到自然风格的差距,但并集在除了 R@1 之外的每个指标上都比仅原始数据差。有两种解释似乎合理。首先,LOINC 候选池使用简洁的显示名称,因此在简洁配对上训练的模型自然校准了查询到池的风格对齐;添加释义会将表示偏离该对齐。其次,MNRL 将批次中的所有其他项视为负样本,因此当同一项的释义和原始项共享一个批次时,它们会相互成为负样本,尽管共享相同的黄金 LOINC 代码。
### 4.3 训练规模消融
图 2 (https://arxiv.org/html/2606.15449#S4.F2) 显示了 R@5 与训练集大小的关系。性能从 1k(R@5 = 0.222)提高到 5k(R@5 = 0.333),然后在 20k 和完整的 123k(均为 0.296)处持平。超过 5k 的边际配对主要是相同项的其他释义,因此它们没有增加新信号。
参考说明 图 2: R@5 相对于训练集大小(并集数据)。性能在 5k 配对时达到峰值。
### 4.4 错误分析
我们检查了 BioLORD 在 R@1 上失败的 44 个项目,并将每个项目归入四个类别之一。图 3 (https://arxiv.org/html/2606.15449#S4.F3) 显示了分布情况。
错误特异性 (29.5%):BioLORD 从正确的概念家族中检索到一个 LOINC 代码,但成员错误,通常是因为标本类型或测量方法不同(例如,pH 的动脉血与全血)。
模糊文本 (29.5%):项文本非常短(一个或两个标记),映射到多个可能的代码,没有进一步上下文可消歧。“PH” 可以是动脉血中的 pH (2744-1) 或全血中的 pH (11558-4)。
术语混淆 (27.3%):预测来自完全不同的 LOINC 概念。对于 “PaCO2 [mmHg]”,黄金代码是 2019-8 (*Carbon dioxide [Partial pressure] in Arterial blood*),但 BioLORD 返回了 38645-8 (*Captan [Mass/volume] in Air*),这是一种农药测量,与查询没有临床重叠。
未见概念 (13.6%):黄金 LOINC 代码未出现在 LHC-Forms 训练词汇中。
特异性和模糊性共占失败的 59%。特别是特异性错误表明,家族内区分是剩余的瓶颈。
参考说明 图 3: BioLORD R@1 失败分解(n=44)。七行从错误分类启发式脚本的初始输出中手动更正。
## 5 结论
BioLORD 在生物医学本体上的领域预训练使其获得最佳的最高排名准确率:它赢得了 R@1 和 MRR,尽管从未见过我们的训练配对。然而,仅使用原始数据的对比微调在 R@5 (0.389) 和 R@10 (0.426) 上胜出,并且即使表 1 (https://arxiv.org/html/2606.15449#S4.T1) 中的并集微调也将黄金代码放入前 10 的频率高于 BioLORD (0.370 vs. 0.333)。一个可能的解释是,BioLORD 的训练分布与那些具有最多临床框架的评估项对齐良好,而微调模型学会了在 LHC-Forms 词汇内进行区分,并过度拟合了其训练配对的简洁风格。
仅使用原始数据的模型实现了 R@5 = 0.389,而并集模型为 0.296,尽管看到的配对更少、风格更窄。候选池是简洁的,并且在简洁配对上训练的模型自然校准了候选池。添加释义会使查询表示偏离池词汇,而不改变池本身。
本研究的主要局限性是评估集较小(n=54)。在 54 个项中,三次正确检索会使 R@5 产生 5.6 个百分点的波动,因此表 1 (https://arxiv.org/html/2606.15449#S4.T1) 中接近的方法可能没有显著差异。更大的评估集,最好来自真实的预授权实现,将使排名更可靠。
未来工作最有希望的方向是交叉编码器重排序器,应用于我们仅使用原始数据的微调的前几名候选,其 R@10 达到 0.426,意味着对于 43% 的查询,黄金代码在其前 10 名中。同时看到查询和候选的交叉编码器应该能够处理家族内特异性错误,这些错误占当前失败的近三分之一。将 LOINC 层次结构纳入检索目标也将直接解决特异性问题。
## 源代码
## 参考文献
- [1] HL7 Da Vinci Project. CDS-Library: clinical...相似文章
面向快速医疗互操作性资源(FHIR)中工具调用代理的强化学习
本文介绍了一种针对在FHIR医疗数据上运行的工具调用LLM代理的强化学习后训练流水线,在使用较小的Qwen3-8B模型时,在FHIR-AgentBench上达到了77%的答案正确率,而o4-mini仅为50%。
通过方差感知的评分标准奖励与GRPO改进LLMs心脏相关医疗问答
本文提出一种使用GRPO的方差感知奖励框架,以改进LLMs在心脏相关医疗问答上的性能,在一个HealthBench子集上实现了显著的准确率和F1分数提升。
将结构化生物医学知识注入语言模型:持续预训练与GraphRAG对比
# 将结构化生物医学知识注入语言模型:持续预训练与GraphRAG 来源:[https://arxiv.org/html/2604.16422](https://arxiv.org/html/2604.16422) ###### 摘要 将领域特定知识注入模型对于使语言模型(LMs)适应生物医学等专业领域至关重要。尽管目前大多数方法依赖于非结构化文本语料库,但本研究探讨了两种利用UMLS元术语表(Metathesaurus)中结构化知识的互补策略:
用于生物医学声明验证的小型LLM:经济高效的微调、结构化数据集捷径与跨域泛化
使用QLoRA对小型LLM(3B-7B)进行生物医学声明验证的微调,以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数,并揭示了SciFact中的一个结构伪影。该研究表明,在结构合理的数据上进行训练可实现稳健的跨域迁移。
迈向LLM的下一个前沿:私有数据训练——联邦微调的跨域基准
本文提出了一个在私有数据上对大型语言模型进行联邦微调的跨域基准,评估了LoRA、QLoRA和IA3策略在医疗和金融数据集上的表现。结果表明,联邦微调接近集中式训练的性能,并优于孤立学习,证明了在数据无法共享时通过联邦微调适配LLM的可行性。