用于生物医学声明验证的小型LLM:经济高效的微调、结构化数据集捷径与跨域泛化

arXiv cs.CL 论文

摘要

使用QLoRA对小型LLM(3B-7B)进行生物医学声明验证的微调,以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数,并揭示了SciFact中的一个结构伪影。该研究表明,在结构合理的数据上进行训练可实现稳健的跨域迁移。

arXiv:2606.12854v1 公告类型:新 摘要:大型语言模型(如GPT-4o和GPT-5)在生物医学声明验证上表现出强大的零样本性能,但成本和透明度限制了其大规模使用。我们通过QLoRA在SciFact和HealthVer上微调了三个小型LLM:Phi-3-mini(3.8B)、Qwen2.5-3B和Mistral-7B,首次对QLoRA模型与GPT-4o及微调后的BioLinkBERT编码器进行了比较研究。Mistral-7B QLoRA以极低的成本仅使用1,008个训练示例就超越了GPT-4o和GPT-5(F1提升高达12%)。我们进行了广泛的域内和跨域评估:在SciFact上训练的模型在HealthVer上测试,反之亦然,并通过匹配大小来隔离数据集结构与数据量。我们识别出SciFact中一个此前未被报告的结构伪影,该伪影会虚增域内分数,并通过双向域外评估表明,在结构合理的数据上训练可实现稳健的跨域迁移。我们计划发布所有代码和适配器检查点。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:50

# 用于生物医学声明验证的小型LLM:经济高效的微调、结构性数据集捷径及跨领域泛化
来源:https://arxiv.org/html/2606.12854
###### 摘要

大型语言模型如GPT-4o和GPT-5在生物医学声明验证上表现出强大的零样本性能,但成本和黑箱特性限制了其规模化应用。我们通过QLoRA在SciFact和HealthVer上微调了三个小型LLM:Phi-3-mini(3.8B)、Qwen2.5-3B和Mistral-7B,首次开展了QLoRA模型与GPT-4o及微调后的BioLinkBERT编码器的对比研究。Mistral-7B QLoRA在F1分数上比GPT-4o和GPT-5高出最多12%,而成本仅为后者的1/44.5,仅使用1,008个训练样本,展现了极具吸引力的成本-质量平衡。我们进行了广泛的域内和跨域评估:在SciFact上训练的模型在HealthVer上测试,反之亦然,并匹配模型大小以隔离数据集结构与数据量的影响。我们发现了SciFact中一个先前未报告的结构性伪影,该伪影会夸大域内得分,并通过双向域外评估证明,在结构良好的数据上训练能够实现稳健的跨域迁移。我们已发布所有代码和适配器检查点。

生物医学声明验证的小型LLM:经济高效的微调、结构性数据集捷径及跨领域泛化

Gaurav Kumar^1,2^
^1^Moveworks AI
^2^加州大学圣地亚哥分校
[email protected]

## 1 引言

自动化生物医学声明验证旨在判断一条声明是有证据**支持**、**反驳**还是**无法确定**——这是一种应用于生物医学领域的自然语言推理(NLI)形式。随着健康虚假信息的增加,这项任务变得愈发关键(Vladika and Matthes 2023 (https://arxiv.org/html/2606.12854#bib.bib14);Guo 等人 2022 (https://arxiv.org/html/2606.12854#bib.bib15);Kotonya and Toni 2020 (https://arxiv.org/html/2606.12854#bib.bib13))。大型语言模型(LLM)如GPT-4o提供了强大的零样本性能(Nori 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib16);Košprdić 等人 2024 (https://arxiv.org/html/2606.12854#bib.bib20))。然而,API成本随使用量线性增长,无法在隐私敏感的临床环境中本地部署,且供应商的无声更新会损害可复现性。QLoRA (Dettmers 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib3)) 支持在单GPU上一小时内对数十亿参数模型进行4位微调,但目前尚缺乏针对此任务、在同时测试域内性能和域外泛化能力的条件下,对QLoRA适配的小型LLM与专有模型及编码器基线进行系统比较的研究。

我们分别在SciFact (Wadden 等人 2020 (https://arxiv.org/html/2606.12854#bib.bib1)) 和HealthVer (Sarrouti 等人 2021 (https://arxiv.org/html/2606.12854#bib.bib2)) 上微调了Qwen2.5-3B (Qwen Team 2025 (https://arxiv.org/html/2606.12854#bib.bib24))、Phi-3-mini 3.8B (Abdin 等人 2024 (https://arxiv.org/html/2606.12854#bib.bib6)) 和Mistral-7B-Instruct (Jiang 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib7)),并与GPT-4o、GPT-5以及微调后的BioLinkBERT (Yasunaga 等人 2022 (https://arxiv.org/html/2606.12854#bib.bib8)) 进行了双向评估。我们的贡献如下:

1. QLoRA微调在生物医学声明验证上以44.5倍更低的成本超越了GPT-4o和GPT-5。仅使用1,008个样本进行微调,Mistral-7B就在SciFact上达到88.4%的宏平均F1,在HealthVer上达到65.2%,在两项数据集上均超过了GPT-4o(85.6%,53.2%)和GPT-5(77.9%,42.4%),以及先前报道的微调编码器结果(Košprdić 等人 2024 (https://arxiv.org/html/2606.12854#bib.bib20))。
2. 我们发现了SciFact中一个先前未报告的结构性伪影。所有243个NEI训练样本的证据字段均为空,这使得NEI可以通过证据缺失而非真正推理来轻易检测。微调模型利用了这一线索,实现了100%的域内NEI F1,以先前工作未报告的方式夸大了宏平均F1。
3. 双向域外评估:在SciFact上训练并在HealthVer上测试,反之亦然,且在匹配大小下进行,展示了稳健的跨域适应性:仅使用1,008个HealthVer样本进行微调,Mistral-7B就能在SciFact OOD上达到74.3%的NEI F1,优于在10倍数据上训练的BioLinkBERT(60.8%)。反向方向证实了捷径机制:SciFact训练的模型在HealthVer上表现崩溃,这种不对称性排除了领域偏移和数据量作为解释的可能性。

## 2 相关工作

#### 生物医学声明验证。

SciFact (Wadden 等人 2020 (https://arxiv.org/html/2606.12854#bib.bib1)) 将验证形式化,包含1,409条标注为**支持**、**反驳**或NEI的专家编写声明。HealthVer (Sarrouti 等人 2021 (https://arxiv.org/html/2606.12854#bib.bib2)) 将其扩展到真实世界的健康查询,而PubHealth (Kotonya and Toni 2020 (https://arxiv.org/html/2606.12854#bib.bib13)) 则针对公共卫生虚假信息。大多数系统将验证视为NLI问题,并微调编码器,如SciBERT (Beltagy 等人 2019 (https://arxiv.org/html/2606.12854#bib.bib12))、BioBERT (Lee 等人 2020 (https://arxiv.org/html/2606.12854#bib.bib11)) 或DeBERTa (He 等人 2021 (https://arxiv.org/html/2606.12854#bib.bib23));MultiVerS (Wadden 等人 2022 (https://arxiv.org/html/2606.12854#bib.bib18)) 通过全文档建模推进了SciFact的最新水平。Košprdić 等人 (2024 (https://arxiv.org/html/2606.12854#bib.bib20)) 表明DeBERTa在SciFact上达到88%的F1,优于GPT-4零样本,但在HealthVer OOD上仅达到48%。我们重新审视这一基准,使用指令微调的解码器LLM。

#### LLM用于事实验证。

GPT-4已在临床QA (Singhal 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib17);Nori 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib16)) 和声明验证 (Zheng 等人 2024 (https://arxiv.org/html/2606.12854#bib.bib21)) 上进行了评估,取得了强大但成本高昂的零样本性能。关于NLI伪影的先前工作 (Gururangan 等人 2018 (https://arxiv.org/html/2606.12854#bib.bib25)) 表明模型易于利用虚假的数据集相关性。

#### 参数高效微调。

LoRA (Hu 等人 2022 (https://arxiv.org/html/2606.12854#bib.bib4)) 向冻结的Transformer权重中注入可训练的低秩分解矩阵 ΔW = BA。QLoRA (Dettmers 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib3)) 添加了4位NF4量化和分页优化器,实现了单GPU微调。QLoRA在生物医学NLI中仍未得到充分探索,尽管它非常适合于约束标签模式和小数据集。

## 3 方法

### 3.1 数据集

SciFact (Wadden 等人 2020 (https://arxiv.org/html/2606.12854#bib.bib1)) 包含1,409条专家编写的声明,并配有PubMed证据,标注为**支持**、**反驳**或NEI。我们采用80/20的分层训练/验证划分,并以官方开发集作为测试集(450个样本)。标签分布:48.8%**支持**,27.1%**反驳**,24.1% NEI。关键在于,所有NEI样本的证据字段默认都是空的。按照声明验证任务的标准实践 (Wadden 等人 2020 (https://arxiv.org/html/2606.12854#bib.bib1)),我们使用标注的证据句子作为模型输入,而非完整摘要;NEI声明根据定义没有标注证据,因此导致证据字段为空。

HealthVer (Sarrouti 等人 2021 (https://arxiv.org/html/2606.12854#bib.bib2)) 提供了14,330个来自真实世界健康查询的证据-声明对,并经过PubMed验证,具有官方划分(10,590/1,917/1,823)。与SciFact不同,HealthVer中的NEI需要对存在但不确定的证据进行推理,从而消除了缺失捷径。标签分布:35.7%**支持**,22.8%**反驳**,41.5% NEI。

两个数据集均使用统一的(声明,证据,标签)三元组,并带有确定性标签标准化(附录A (https://arxiv.org/html/2606.12854#A1))。对于受控的双向实验,我们从HealthVer训练集中采样1,008个样本,以精确匹配SciFact的训练规模,从而隔离数据集结构效应与数据量的影响。

### 3.2 模型

#### 零样本基线。

我们在温度为0、最小推理且无思维链提示的条件下运行GPT-4o和GPT-5(附录B (https://arxiv.org/html/2606.12854#A2))。

#### QLoRA微调模型。

我们微调了Phi-3-mini-4k-instruct (3.8B) (Abdin 等人 2024 (https://arxiv.org/html/2606.12854#bib.bib6))、Qwen2.5-3B-Instruct (Qwen Team 2025 (https://arxiv.org/html/2606.12854#bib.bib24)) 和Mistral-7B-Instruct-v0.3 (Jiang 等人 2023 (https://arxiv.org/html/2606.12854#bib.bib7)) 模型。每个模型以4位NF4量化加载,并在所有注意力层和前馈层上使用LoRA适配器(r=16,α=32)。我们执行有监督微调,学习率2×10^-4,余弦调度,3个epoch,优化器为AdamW 8位。我们通过网格搜索选择超参数(附录D (https://arxiv.org/html/2606.12854#A4))。我们分别在SciFact(1,008)和HealthVer子集(1,008)上训练多个模型。完整配置见附录E (https://arxiv.org/html/2606.12854#A5)。

#### 编码器基线。

我们在SciFact、HealthVer子集(1,008)和完整HealthVer(10,590)上微调BioLinkBERT-base (Yasunaga 等人 2022 (https://arxiv.org/html/2606.12854#bib.bib8)),并添加一个三分类分类头,以提供匹配规模的天花板对比。

### 3.3 评估

我们报告所有三个标签的宏平均F1、准确率和每类F1。每个在SciFact上训练的模型均在SciFact(域内)和HealthVer(域外)测试集上进行评估,反之亦然,从而在受控条件下实现直接的双向比较。

## 4 实验与结果

### 4.1 域内性能

表1 (https://arxiv.org/html/2606.12854#S4.T1) 展示了所有模型的域内结果。

表1:域内结果。SF = SciFact (1,008)。HV_sub = HealthVer 1,008样本子集。HV_full = 完整HealthVer训练集 (10,590),作为参考天花板显示。指标为百分比。

#### SciFact。

所有三个QLoRA模型在仅使用1,008个训练样本的情况下,宏平均F1均超过了GPT-4o。Mistral-7B达到88.4%,比GPT-4o(85.6%)高2.8个百分点,比BioLinkBERT(87.5%)高0.9个百分点。McNemar检验确认Mistral与GPT-4o之间(p=0.46)以及QLoRA模型之间(p=0.54)在统计上无显著差异。GPT-4o在**反驳**类别上保持优势,反映了其广泛的预训练能力,能检测微妙的定向矛盾。GPT-5零样本在SciFact上仅达到77.9%的宏平均F1,低于GPT-4o和所有微调模型,这表明较新的专有模型并不会自动在结构化验证任务上提升。此外,我们在第4.2节 (https://arxiv.org/html/2606.12854#S4.SS2) 中讨论了完美NEI得分背后的机制。

#### HealthVer。

在仅使用1,008个HealthVer样本进行微调后,Mistral-7B QLoRA达到65.2%的宏平均F1,超过了GPT-4o、GPT-5和BioLinkBERT(分别为53.2%、42.4%、62.4%)。这表明QLoRA适配的解码器在真实世界健康查询上,以极少数据即可超越专有模型和编码器方法。全量训练的BioLinkBERT天花板(81.9%)显示,增加9,582个样本可提升19.5个宏平均F1点,证实数据量效应确实存在,但在匹配规模下并不弥合架构差距。除了性能,解码器模型还允许自由格式的解释、零样本提示,且无需任务特定的分类头。

### 4.2 SciFact NEI结构性捷径

微调模型在SciFact上实现的高NEI F1并非真正的认知推理。我们发现所有NEI样本的证据字段均为空,而每个**支持**和**反驳**样本都包含证据。仅凭证据长度即可完美区分标签,无需阅读声明内容。完整统计见附录C (https://arxiv.org/html/2606.12854#A3),表8 (https://arxiv.org/html/2606.12854#A3.T8)。

SciFact在无引用证据时将声明标注为NEI,无意中创建了一个任何表达性模型都能学会的结构性信号。零样本GPT-4o尝试对NEI实例进行真正推理。这种捷径夸大了所有微调模型的宏平均F1,且先前工作未报告此现象。

### 4.3 双向域外泛化

表2 (https://arxiv.org/html/2606.12854#S4.T2) 呈现了完整的跨数据集评估。

表2:双向OOD结果。SF = SciFact;HV = HealthVer。顶部:SciFact训练的模型在HealthVer测试集上的结果。中间:HealthVer子集(1,008)训练的模型在SciFact测试集上的结果。底部:在完整HealthVer上训练的BioLinkBERT(参考)。GPT-4o作为参考显示。

#### SciFact → HealthVer。

所有SciFact训练的模型均遭受灾难性退化,宏平均F1从域内的86-88%下降到OOD的36-44%。NEI崩溃最为严重,因为HealthVer NEI具有非空且主题相关的证据,缺失捷径无法触发。表2 (https://arxiv.org/html/2606.12854#S4.T2) 显示了结果。Qwen2.5-3B是SciFact训练模型中NEI最具弹性的,表明更广泛的预训练提供了一定的泛化优势。

#### HealthVer → SciFact。

反向方向讲述了一个显著不同的故事。在仅1,008个HealthVer样本上训练的Mistral-7B在SciFact OOD上达到69.3%的宏平均F1,NEI F1为74.3%,远高于任何SciFact训练的模型在HealthVer上的结果。值得注意的是,这优于在完整HealthVer集上训练的BioLinkBERT(60.8%),尽管使用的训练数据少了10倍。匹配规模的BioLinkBERT显示出有意义的迁移,达到53.3%的宏平均F1和67.1%的NEI F1。总之,这些结果表明,在结构良好的数据上训练能够实现稳健的跨域迁移,并且模型架构比数据量更重要。

#### 不对称OOD泛化。

对称退化将表明分布偏移;相反,崩溃严格是单向的。这种不对称性在匹配训练规模(1,008个样本)下成立,排除了数据量的影响。在真正认知推理(HealthVer)上训练的模型能够迁移;在结构性代理(SciFact)上训练的模型则不能。

#### 按类别分析。

**反驳**F1在双向OOD中退化最严重:BioLinkBERT(HealthVer_full → SciFact)仅达到29.1%,尽管**支持**(77.9%)和NEI(75.3%)迁移表现强劲。定向矛盾检测需要特定领域的推理,而这种推理在生物医学声明类型之间泛化能力较差。鉴于反驳检测对任何临床任务都至关重要,这是一个关键差距。

#### GPT-4o和GPT-5:矛盾的OOD行为。

GPT-4o在零样本模型中取得了最高的HealthVer NEI F1(63.1%),尽管其在SciFact上的NEI F1最低(82.3%)。其域内弱点反映了能够迁移的真正不确定性推理。GPT-5显示出更明显的NEI过度预测:在SciFact上NEI召回率为95.5%,但在HealthVer上SUP召回率仅为8.8%,这表明过度谨慎的RLHF训练使其无论证据如何都预测NEI。域内得分是较差的代理指标。

### 4.4 成本分析

表3:每1,000次预测的推理成本和一次性微调成本(T4 GPU)。API定价截至2026年初。GPT-4o每1,000次预测成本为1.30美元,而本地开源模型为0.03美元(成本降低44.5倍)。0.35美元的一次性微调成本摊销后可忽略不计,使得微调小型模型在性能和成本上均具有严格优势。对于OOD任务,训练数据选择至关重要。SciFact训练的模型在OOD上表现崩溃,而...

相似文章

迈向LLM的下一个前沿:私有数据训练——联邦微调的跨域基准

arXiv cs.LG

本文提出了一个在私有数据上对大型语言模型进行联邦微调的跨域基准,评估了LoRA、QLoRA和IA3策略在医疗和金融数据集上的表现。结果表明,联邦微调接近集中式训练的性能,并优于孤立学习,证明了在数据无法共享时通过联邦微调适配LLM的可行性。