用于生物医学声明验证的小型LLM：经济高效的微调、结构化数据集捷径与跨域泛化

arXiv cs.CL 2026/06/12 04:00 论文

small-llms biomedical claim-verification fine-tuning qlora cross-domain generalization

摘要

使用QLoRA对小型LLM（3B-7B）进行生物医学声明验证的微调，以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数，并揭示了SciFact中的一个结构伪影。该研究表明，在结构合理的数据上进行训练可实现稳健的跨域迁移。

arXiv:2606.12854v1 公告类型：新摘要：大型语言模型（如GPT-4o和GPT-5）在生物医学声明验证上表现出强大的零样本性能，但成本和透明度限制了其大规模使用。我们通过QLoRA在SciFact和HealthVer上微调了三个小型LLM：Phi-3-mini（3.8B）、Qwen2.5-3B和Mistral-7B，首次对QLoRA模型与GPT-4o及微调后的BioLinkBERT编码器进行了比较研究。Mistral-7B QLoRA以极低的成本仅使用1,008个训练示例就超越了GPT-4o和GPT-5（F1提升高达12%）。我们进行了广泛的域内和跨域评估：在SciFact上训练的模型在HealthVer上测试，反之亦然，并通过匹配大小来隔离数据集结构与数据量。我们识别出SciFact中一个此前未被报告的结构伪影，该伪影会虚增域内分数，并通过双向域外评估表明，在结构合理的数据上训练可实现稳健的跨域迁移。我们计划发布所有代码和适配器检查点。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:50

# 用于生物医学声明验证的小型LLM：经济高效的微调、结构性数据集捷径及跨领域泛化
来源：https://arxiv.org/html/2606.12854
###### 摘要

大型语言模型如GPT-4o和GPT-5在生物医学声明验证上表现出强大的零样本性能，但成本和黑箱特性限制了其规模化应用。我们通过QLoRA在SciFact和HealthVer上微调了三个小型LLM：Phi-3-mini（3.8B）、Qwen2.5-3B和Mistral-7B，首次开展了QLoRA模型与GPT-4o及微调后的BioLinkBERT编码器的对比研究。Mistral-7B QLoRA在F1分数上比GPT-4o和GPT-5高出最多12%，而成本仅为后者的1/44.5，仅使用1,008个训练样本，展现了极具吸引力的成本-质量平衡。我们进行了广泛的域内和跨域评估：在SciFact上训练的模型在HealthVer上测试，反之亦然，并匹配模型大小以隔离数据集结构与数据量的影响。我们发现了SciFact中一个先前未报告的结构性伪影，该伪影会夸大域内得分，并通过双向域外评估证明，在结构良好的数据上训练能够实现稳健的跨域迁移。我们已发布所有代码和适配器检查点。

生物医学声明验证的小型LLM：经济高效的微调、结构性数据集捷径及跨领域泛化

Gaurav Kumar^1,2^
^1^Moveworks AI
^2^加州大学圣地亚哥分校
[email protected]

## 1 引言

自动化生物医学声明验证旨在判断一条声明是有证据**支持**、**反驳**还是**无法确定**——这是一种应用于生物医学领域的自然语言推理（NLI）形式。随着健康虚假信息的增加，这项任务变得愈发关键（Vladika and Matthes 2023 (https://arxiv.org/html/2606.12854#bib.bib14)；Guo 等人 2022 (https://arxiv.org/html/2606.12854#bib.bib15)；Kotonya and Toni 2020 (https://arxiv.org/html/2606.12854#bib.bib13)）。大型语言模型（LLM）如GPT-4o提供了强大的零样本性能（Nori 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib16)；Košprdić 等人 2024 (https://arxiv.org/html/2606.12854#bib.bib20)）。然而，API成本随使用量线性增长，无法在隐私敏感的临床环境中本地部署，且供应商的无声更新会损害可复现性。QLoRA (Dettmers 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib3)) 支持在单GPU上一小时内对数十亿参数模型进行4位微调，但目前尚缺乏针对此任务、在同时测试域内性能和域外泛化能力的条件下，对QLoRA适配的小型LLM与专有模型及编码器基线进行系统比较的研究。

我们分别在SciFact (Wadden 等人 2020 (https://arxiv.org/html/2606.12854#bib.bib1)) 和HealthVer (Sarrouti 等人 2021 (https://arxiv.org/html/2606.12854#bib.bib2)) 上微调了Qwen2.5-3B (Qwen Team 2025 (https://arxiv.org/html/2606.12854#bib.bib24))、Phi-3-mini 3.8B (Abdin 等人 2024 (https://arxiv.org/html/2606.12854#bib.bib6)) 和Mistral-7B-Instruct (Jiang 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib7))，并与GPT-4o、GPT-5以及微调后的BioLinkBERT (Yasunaga 等人 2022 (https://arxiv.org/html/2606.12854#bib.bib8)) 进行了双向评估。我们的贡献如下：

1. QLoRA微调在生物医学声明验证上以44.5倍更低的成本超越了GPT-4o和GPT-5。仅使用1,008个样本进行微调，Mistral-7B就在SciFact上达到88.4%的宏平均F1，在HealthVer上达到65.2%，在两项数据集上均超过了GPT-4o（85.6%，53.2%）和GPT-5（77.9%，42.4%），以及先前报道的微调编码器结果（Košprdić 等人 2024 (https://arxiv.org/html/2606.12854#bib.bib20)）。
2. 我们发现了SciFact中一个先前未报告的结构性伪影。所有243个NEI训练样本的证据字段均为空，这使得NEI可以通过证据缺失而非真正推理来轻易检测。微调模型利用了这一线索，实现了100%的域内NEI F1，以先前工作未报告的方式夸大了宏平均F1。
3. 双向域外评估：在SciFact上训练并在HealthVer上测试，反之亦然，且在匹配大小下进行，展示了稳健的跨域适应性：仅使用1,008个HealthVer样本进行微调，Mistral-7B就能在SciFact OOD上达到74.3%的NEI F1，优于在10倍数据上训练的BioLinkBERT（60.8%）。反向方向证实了捷径机制：SciFact训练的模型在HealthVer上表现崩溃，这种不对称性排除了领域偏移和数据量作为解释的可能性。

## 2 相关工作

#### 生物医学声明验证。

SciFact (Wadden 等人 2020 (https://arxiv.org/html/2606.12854#bib.bib1)) 将验证形式化，包含1,409条标注为**支持**、**反驳**或NEI的专家编写声明。HealthVer (Sarrouti 等人 2021 (https://arxiv.org/html/2606.12854#bib.bib2)) 将其扩展到真实世界的健康查询，而PubHealth (Kotonya and Toni 2020 (https://arxiv.org/html/2606.12854#bib.bib13)) 则针对公共卫生虚假信息。大多数系统将验证视为NLI问题，并微调编码器，如SciBERT (Beltagy 等人 2019 (https://arxiv.org/html/2606.12854#bib.bib12))、BioBERT (Lee 等人 2020 (https://arxiv.org/html/2606.12854#bib.bib11)) 或DeBERTa (He 等人 2021 (https://arxiv.org/html/2606.12854#bib.bib23))；MultiVerS (Wadden 等人 2022 (https://arxiv.org/html/2606.12854#bib.bib18)) 通过全文档建模推进了SciFact的最新水平。Košprdić 等人 (2024 (https://arxiv.org/html/2606.12854#bib.bib20)) 表明DeBERTa在SciFact上达到88%的F1，优于GPT-4零样本，但在HealthVer OOD上仅达到48%。我们重新审视这一基准，使用指令微调的解码器LLM。

#### LLM用于事实验证。

GPT-4已在临床QA (Singhal 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib17)；Nori 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib16)) 和声明验证 (Zheng 等人 2024 (https://arxiv.org/html/2606.12854#bib.bib21)) 上进行了评估，取得了强大但成本高昂的零样本性能。关于NLI伪影的先前工作 (Gururangan 等人 2018 (https://arxiv.org/html/2606.12854#bib.bib25)) 表明模型易于利用虚假的数据集相关性。

#### 参数高效微调。

LoRA (Hu 等人 2022 (https://arxiv.org/html/2606.12854#bib.bib4)) 向冻结的Transformer权重中注入可训练的低秩分解矩阵 ΔW = BA。QLoRA (Dettmers 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib3)) 添加了4位NF4量化和分页优化器，实现了单GPU微调。QLoRA在生物医学NLI中仍未得到充分探索，尽管它非常适合于约束标签模式和小数据集。

## 3 方法

### 3.1 数据集

SciFact (Wadden 等人 2020 (https://arxiv.org/html/2606.12854#bib.bib1)) 包含1,409条专家编写的声明，并配有PubMed证据，标注为**支持**、**反驳**或NEI。我们采用80/20的分层训练/验证划分，并以官方开发集作为测试集（450个样本）。标签分布：48.8%**支持**，27.1%**反驳**，24.1% NEI。关键在于，所有NEI样本的证据字段默认都是空的。按照声明验证任务的标准实践 (Wadden 等人 2020 (https://arxiv.org/html/2606.12854#bib.bib1))，我们使用标注的证据句子作为模型输入，而非完整摘要；NEI声明根据定义没有标注证据，因此导致证据字段为空。

HealthVer (Sarrouti 等人 2021 (https://arxiv.org/html/2606.12854#bib.bib2)) 提供了14,330个来自真实世界健康查询的证据-声明对，并经过PubMed验证，具有官方划分（10,590/1,917/1,823）。与SciFact不同，HealthVer中的NEI需要对存在但不确定的证据进行推理，从而消除了缺失捷径。标签分布：35.7%**支持**，22.8%**反驳**，41.5% NEI。

两个数据集均使用统一的（声明，证据，标签）三元组，并带有确定性标签标准化（附录A (https://arxiv.org/html/2606.12854#A1)）。对于受控的双向实验，我们从HealthVer训练集中采样1,008个样本，以精确匹配SciFact的训练规模，从而隔离数据集结构效应与数据量的影响。

### 3.2 模型

#### 零样本基线。

我们在温度为0、最小推理且无思维链提示的条件下运行GPT-4o和GPT-5（附录B (https://arxiv.org/html/2606.12854#A2)）。

#### QLoRA微调模型。

我们微调了Phi-3-mini-4k-instruct (3.8B) (Abdin 等人 2024 (https://arxiv.org/html/2606.12854#bib.bib6))、Qwen2.5-3B-Instruct (Qwen Team 2025 (https://arxiv.org/html/2606.12854#bib.bib24)) 和Mistral-7B-Instruct-v0.3 (Jiang 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib7)) 模型。每个模型以4位NF4量化加载，并在所有注意力层和前馈层上使用LoRA适配器（r=16，α=32）。我们执行有监督微调，学习率2×10^-4，余弦调度，3个epoch，优化器为AdamW 8位。我们通过网格搜索选择超参数（附录D (https://arxiv.org/html/2606.12854#A4)）。我们分别在SciFact（1,008）和HealthVer子集（1,008）上训练多个模型。完整配置见附录E (https://arxiv.org/html/2606.12854#A5)。

#### 编码器基线。

我们在SciFact、HealthVer子集（1,008）和完整HealthVer（10,590）上微调BioLinkBERT-base (Yasunaga 等人 2022 (https://arxiv.org/html/2606.12854#bib.bib8))，并添加一个三分类分类头，以提供匹配规模的天花板对比。

### 3.3 评估

我们报告所有三个标签的宏平均F1、准确率和每类F1。每个在SciFact上训练的模型均在SciFact（域内）和HealthVer（域外）测试集上进行评估，反之亦然，从而在受控条件下实现直接的双向比较。

## 4 实验与结果

### 4.1 域内性能

表1 (https://arxiv.org/html/2606.12854#S4.T1) 展示了所有模型的域内结果。

表1：域内结果。SF = SciFact (1,008)。HV_sub = HealthVer 1,008样本子集。HV_full = 完整HealthVer训练集 (10,590)，作为参考天花板显示。指标为百分比。

#### SciFact。

所有三个QLoRA模型在仅使用1,008个训练样本的情况下，宏平均F1均超过了GPT-4o。Mistral-7B达到88.4%，比GPT-4o（85.6%）高2.8个百分点，比BioLinkBERT（87.5%）高0.9个百分点。McNemar检验确认Mistral与GPT-4o之间（p=0.46）以及QLoRA模型之间（p=0.54）在统计上无显著差异。GPT-4o在**反驳**类别上保持优势，反映了其广泛的预训练能力，能检测微妙的定向矛盾。GPT-5零样本在SciFact上仅达到77.9%的宏平均F1，低于GPT-4o和所有微调模型，这表明较新的专有模型并不会自动在结构化验证任务上提升。此外，我们在第4.2节 (https://arxiv.org/html/2606.12854#S4.SS2) 中讨论了完美NEI得分背后的机制。

#### HealthVer。

在仅使用1,008个HealthVer样本进行微调后，Mistral-7B QLoRA达到65.2%的宏平均F1，超过了GPT-4o、GPT-5和BioLinkBERT（分别为53.2%、42.4%、62.4%）。这表明QLoRA适配的解码器在真实世界健康查询上，以极少数据即可超越专有模型和编码器方法。全量训练的BioLinkBERT天花板（81.9%）显示，增加9,582个样本可提升19.5个宏平均F1点，证实数据量效应确实存在，但在匹配规模下并不弥合架构差距。除了性能，解码器模型还允许自由格式的解释、零样本提示，且无需任务特定的分类头。

### 4.2 SciFact NEI结构性捷径

微调模型在SciFact上实现的高NEI F1并非真正的认知推理。我们发现所有NEI样本的证据字段均为空，而每个**支持**和**反驳**样本都包含证据。仅凭证据长度即可完美区分标签，无需阅读声明内容。完整统计见附录C (https://arxiv.org/html/2606.12854#A3)，表8 (https://arxiv.org/html/2606.12854#A3.T8)。

SciFact在无引用证据时将声明标注为NEI，无意中创建了一个任何表达性模型都能学会的结构性信号。零样本GPT-4o尝试对NEI实例进行真正推理。这种捷径夸大了所有微调模型的宏平均F1，且先前工作未报告此现象。

### 4.3 双向域外泛化

表2 (https://arxiv.org/html/2606.12854#S4.T2) 呈现了完整的跨数据集评估。

表2：双向OOD结果。SF = SciFact；HV = HealthVer。顶部：SciFact训练的模型在HealthVer测试集上的结果。中间：HealthVer子集（1,008）训练的模型在SciFact测试集上的结果。底部：在完整HealthVer上训练的BioLinkBERT（参考）。GPT-4o作为参考显示。

#### SciFact → HealthVer。

所有SciFact训练的模型均遭受灾难性退化，宏平均F1从域内的86-88%下降到OOD的36-44%。NEI崩溃最为严重，因为HealthVer NEI具有非空且主题相关的证据，缺失捷径无法触发。表2 (https://arxiv.org/html/2606.12854#S4.T2) 显示了结果。Qwen2.5-3B是SciFact训练模型中NEI最具弹性的，表明更广泛的预训练提供了一定的泛化优势。

#### HealthVer → SciFact。

反向方向讲述了一个显著不同的故事。在仅1,008个HealthVer样本上训练的Mistral-7B在SciFact OOD上达到69.3%的宏平均F1，NEI F1为74.3%，远高于任何SciFact训练的模型在HealthVer上的结果。值得注意的是，这优于在完整HealthVer集上训练的BioLinkBERT（60.8%），尽管使用的训练数据少了10倍。匹配规模的BioLinkBERT显示出有意义的迁移，达到53.3%的宏平均F1和67.1%的NEI F1。总之，这些结果表明，在结构良好的数据上训练能够实现稳健的跨域迁移，并且模型架构比数据量更重要。

#### 不对称OOD泛化。

对称退化将表明分布偏移；相反，崩溃严格是单向的。这种不对称性在匹配训练规模（1,008个样本）下成立，排除了数据量的影响。在真正认知推理（HealthVer）上训练的模型能够迁移；在结构性代理（SciFact）上训练的模型则不能。

#### 按类别分析。

**反驳**F1在双向OOD中退化最严重：BioLinkBERT（HealthVer_full → SciFact）仅达到29.1%，尽管**支持**（77.9%）和NEI（75.3%）迁移表现强劲。定向矛盾检测需要特定领域的推理，而这种推理在生物医学声明类型之间泛化能力较差。鉴于反驳检测对任何临床任务都至关重要，这是一个关键差距。

#### GPT-4o和GPT-5：矛盾的OOD行为。

GPT-4o在零样本模型中取得了最高的HealthVer NEI F1（63.1%），尽管其在SciFact上的NEI F1最低（82.3%）。其域内弱点反映了能够迁移的真正不确定性推理。GPT-5显示出更明显的NEI过度预测：在SciFact上NEI召回率为95.5%，但在HealthVer上SUP召回率仅为8.8%，这表明过度谨慎的RLHF训练使其无论证据如何都预测NEI。域内得分是较差的代理指标。

### 4.4 成本分析

表3：每1,000次预测的推理成本和一次性微调成本（T4 GPU）。API定价截至2026年初。GPT-4o每1,000次预测成本为1.30美元，而本地开源模型为0.03美元（成本降低44.5倍）。0.35美元的一次性微调成本摊销后可忽略不计，使得微调小型模型在性能和成本上均具有严格优势。对于OOD任务，训练数据选择至关重要。SciFact训练的模型在OOD上表现崩溃，而...

用于生物医学声明验证的小型LLM：经济高效的微调、结构化数据集捷径与跨域泛化

相似文章

迈向LLM的下一个前沿：私有数据训练——联邦微调的跨域基准

@cjzafir: 垂直语言模型（VLMs）正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……

一些好条款：比较LLMs与领域训练的小型语言模型在结构化合同提取中的表现

实验还是结果？探测大语言模型中的科学可行性

从基准测试到推理能力：大语言模型在越南法律文本上的双维度大规模评估

提交意见反馈