基于大语言模型的少样本生物医学关系抽取:监督学习的可行替代方案?
摘要
本文研究了使用基于提示学习的大语言模型进行少样本生物医学关系抽取,比较了配对分类和联合生成两种方法。最佳模型实现了0.44的微F1值,显著优于此前的少样本结果,但仍低于监督基线。在宏F1值上,基于提示的方法在稀有关系类型上超越了监督基线,达到了0.45比0.38。
查看缓存全文
缓存时间: 2026/06/16 11:48
# 基于大型语言模型的少样本生物医学关系抽取:监督学习的可行替代方案? 来源:https://arxiv.org/html/2606.15412 11institutetext:卢布尔雅那大学,斯洛文尼亚卢布尔雅那 贝勒医学院,美国德克萨斯州休斯顿 ###### 摘要 生物医学关系抽取(BioRE)是将生物医学文献转化为结构化知识的关键步骤。然而,现有方法大多依赖在昂贵标注数据集上训练的监督模型,限制了其在关系类型和领域间的可扩展性与适应性。我们研究了使用基于提示学习的大型语言模型(LLM)进行少样本BioRE,并比较了两种任务形式:成对分类(预测单个实体对的关系)和联合生成(单次模型调用提取多个关系)。在BioREDirect数据集上的实验揭示了一个清晰的精确率-召回率权衡:成对分类召回率更高,而联合生成更精确且计算效率更高。表现最佳的模型达到了0.44的微F1分数,显著优于之前的少样本结果(0.34),但仍低于监督基线(0.56)。这一差距大部分可归因于单一关系类型的模糊定义。当使用宏F1评估时(更好地捕捉不平衡设置中各关系类型的性能),基于提示的方法优于监督基线(0.45 vs. 0.38),特别是在罕见关系类型上。这些发现凸显了LLM在低资源环境下进行BioRE的潜力,并强调了良好定义关系模式的重要性。 ## 1 引言 近几十年来,科学出版物数量迅速增长,导致书面知识空前积累。这一趋势在生物医学领域尤为突出,仅PubMed数据库每年就新增150多万篇文章的索引[13 (https://arxiv.org/html/2606.15412#bib.bib31)],这还不包括临床记录和电子健康记录等其他生物医学文本来源。虽然这种增长带来了新的发现机会,但也使得人工分析和知识整合变得越来越不可行。 自然语言处理技术通过将非结构化文本转换为结构化表示来应对这一挑战。知识图谱(KG)是一种广泛采用的框架,它以人类和机器可读的形式编码实体及其关系[9 (https://arxiv.org/html/2606.15412#bib.bib13)]。从文本构建知识图谱依赖于两个核心信息抽取任务:命名实体识别(NER,识别实体提及)和关系抽取(RE,确定实体间的语义关系)(图1 (https://arxiv.org/html/2606.15412#S1.F1))。虽然现代NER方法借助稳健的工具取得了强劲表现[16 (https://arxiv.org/html/2606.15412#bib.bib19)],但RE由于对复杂语言、长程依赖和领域变异的敏感性仍是挑战。 参见图注图1:将非结构化文本转换为结构化生物医学知识。首先使用NER对文本段落进行命名实体标注(A)。然后,应用RE识别实体间的语义关系(B)。输出组织成知识图谱,节点代表实体,边代表它们之间的关系(C)。示例改编自BioREDirect数据集[11 (https://arxiv.org/html/2606.15412#bib.bib39)],我们将在分析中使用该数据集。生物医学RE(BioRE)方法通常依赖于基于专家标注数据的监督学习,获取这些数据成本高昂且劳动密集。此外,这些方法往往难以泛化到罕见或新的关系类型以及新领域[6 (https://arxiv.org/html/2606.15412#bib.bib5)]。这激发了人们对基于大型语言模型(LLM)的提示方法的兴趣,这些方法更适合低资源设置和跨领域泛化。LLM在大量文本语料上进行训练,在参数中编码了广泛的语言和事实知识,可在推理时加以利用。学习知识与提示条件生成的结合使LLM能够在无需特定任务训练的情况下执行广泛的任务[3 (https://arxiv.org/html/2606.15412#bib.bib56)]。然而,LLM在BioRE上的少样本性能报告差异很大,从显著低于全监督方法[10 (https://arxiv.org/html/2606.15412#bib.bib74),12 (https://arxiv.org/html/2606.15412#bib.bib40),21 (https://arxiv.org/html/2606.15412#bib.bib58)]到具有竞争力[1 (https://arxiv.org/html/2606.15412#bib.bib75),8 (https://arxiv.org/html/2606.15412#bib.bib68),23 (https://arxiv.org/html/2606.15412#bib.bib43)],这促使了进一步研究。 在这项工作中,我们研究了提示策略如何影响BioRE性能,涉及两种任务形式:*成对分类*,模型一次预测单个标注实体对之间的关系;以及*联合生成*,模型在单次调用中预测所有标注实体间的多个关系。我们比较了这两种范式在抽取性能和计算效率方面的表现;据我们所知,目前尚无针对BioRE的此类系统比较。我们使用最新的开源权重Gemma-4和Qwen-3.5模型系列进行分析。 ## 2 相关工作 RE是识别文本中实体间语义关系的任务。它包括几个子任务:识别相关实体对、分类关系类型以及确定关系方向。在生物医学领域,RE对于揭示基因、蛋白质、疾病和化学化合物之间的相互作用至关重要,支持药物发现、通路分析和疾病建模等应用。 #### 2.0.1 基于规则的方法。 早期的BioRE方法依赖于共现启发式或基于词汇和句法模式的手工设计规则[2 (https://arxiv.org/html/2606.15412#bib.bib76),7 (https://arxiv.org/html/2606.15412#bib.bib77)]。虽然其中一些方法达到了高精确率,但通常劳动密集、召回率低且泛化能力有限。特别是,它们难以捕捉否定和长程依赖等复杂语言现象,且往往无法迁移到新数据集或领域[5 (https://arxiv.org/html/2606.15412#bib.bib11)]。 #### 2.0.2 监督学习。 现代BioRE方法主要基于监督学习,模型在标注样本上训练以预测关系。早期方法依赖于传统机器学习技术,如支持向量机[15 (https://arxiv.org/html/2606.15412#bib.bib70)]和图卷积网络[22 (https://arxiv.org/html/2606.15412#bib.bib72)],而最近的方法则基于预训练语言模型(PLM)[18 (https://arxiv.org/html/2606.15412#bib.bib73)]。 基于PLM的方法通常遵循两阶段范式。首先,模型在大型未标注语料上使用语言建模目标进行预训练。其次,在特定任务数据集上使用针对抽取任务定制的监督目标进行微调。最广泛采用的架构是双向编码器表示(BERT)[4 (https://arxiv.org/html/2606.15412#bib.bib78)],它已成为现代BioRE系统的主导骨干。例如,Lai等人[11 (https://arxiv.org/html/2606.15412#bib.bib39)]将PubMedBERT与软提示调优和多任务学习相结合,在BioREDirect和BC5CDR数据集上取得了最先进的结果。为了克服BERT 512个token的输入限制,该方法采用了分块策略,使模型能够利用文档不同部分的信息,同时预测关系类型、方向性和新颖性。 此外,LLM通过微调也已适用于BioRE。例如,Peng等人[14 (https://arxiv.org/html/2606.15412#bib.bib50)]通过比较全模型微调、软提示调优及其组合来研究临床关系抽取。他们展示了所有设置下的一致改进,其中组合方法取得了最佳性能。他们进一步观察到,微调与未微调模型之间的性能差距随模型规模增大而减小,这表明更大的LLM可能无需特定任务训练即可有效执行BioRE。 尽管性能强劲,基于PLM和LLM的监督方法存在若干局限性。这些模型训练计算成本高,且在小规模或高度专业化数据集上训练时泛化能力较差[24 (https://arxiv.org/html/2606.15412#bib.bib41)]。因此,其有效性高度依赖于大规模、高质量的标注数据集,而在生物医学领域,由于需要专家标注,构建此类数据集成本高昂且耗时[17 (https://arxiv.org/html/2606.15412#bib.bib44)]。 #### 2.0.3 基于提示的学习。 为了解决监督系统的局限性,基于LLM的提示学习,特别是零样本和少样本方法,引起了越来越多的关注。随着模型架构和训练语料规模的不断扩大,LLM在无需特定任务微调的情况下适应下游任务的能力也在增强[23 (https://arxiv.org/html/2606.15412#bib.bib43)]。提示通常描述BioRE任务、目标关系类型和抽取标准,并包含少量示例以引导模型产生期望行为。最近的工作还探索了高级提示策略,如思维链、问答和自我验证,以进一步提高性能[19 (https://arxiv.org/html/2606.15412#bib.bib10)]。 现有工作主要探索了两种主要的BioRE任务形式:成对分类(预测单个实体对的关系)和联合生成(单次模型调用抽取多个关系)。使用成对分类,Zhao等人[23 (https://arxiv.org/html/2606.15412#bib.bib43)]展示了精心设计的提示可以达到与监督方法竞争的性能。他们的方法结合了描述目标关系和抽取标准的任务指令与正负例示例,取得了比相应监督基线高得多的召回率,但往往以降低精确率为代价。 相比之下,Liu等人[12 (https://arxiv.org/html/2606.15412#bib.bib40)]在少样本和微调设置下使用联合生成评估了几个开源LLM。他们发现较大的模型显著优于较小的模型,并且参数高效微调方法(如LoRA)可以部分缩小性能差距。然而,即使是最强评估的LLM也仍远低于监督式的基于BERT的方法。值得注意的是,他们的提示没有明确描述目标关系类型,这可能限制了模型有效区分它们的能力。 总体而言,基于提示的方法为监督系统提供了一种灵活的替代方案,特别是在低资源和跨领域设置中,因为它们可以从少量示例中泛化。然而,其有效性很大程度上取决于提示设计、模型架构和任务形式。由于LLM推理的成本远高于传统监督模型,在评估BioRE系统时必须同时考虑抽取质量和计算效率。这促使了对基于提示的方法和LLM架构在BioRE上的系统评估。 ## 3 评估设置 我们在少样本设置下使用最新的LLM评估了基于提示学习的BioRE,比较了成对分类和联合生成两种任务形式。我们的工作考虑了抽取质量和计算效率,并将结果与现有监督和提示基线相关联。 与大多数早期工作关注句子级抽取[24 (https://arxiv.org/html/2606.15412#bib.bib41)]不同,我们研究了文档级BioRE。这种设置由于实体对数量更多和长程依赖更复杂而更具挑战性,但更能反映现实世界文本,其中关系常常跨越句子边界[20 (https://arxiv.org/html/2606.15412#bib.bib53)]。 ### 3.1 数据集 表1:BioREDirect数据集的实体和关系类型标签。报告的是测试集计数。省略了物种和细胞系实体类型,因为其关系未包含在标注模式中。 | 类型 | 计数 | 描述 | |------|------|------| | **实体类型** | | | | 基因或基因产物 | 5,724 | 基因/蛋白质(例如,TP53, EGFR) | | 疾病或表型特征 | 3,635 | 疾病/表型(例如,乳腺癌) | | 化学实体 | 2,582 | 药物/化学品(例如,阿司匹林,葡萄糖) | | 序列变异 | 1,774 | 遗传变异(例如,BRAFV600E) | | **关系类型** | | | | 关联 | 2,759 | 无明显极性或机制的关系 | | 正相关 | 1,751 | 促进、诱导或增加 | | 负相关 | 1,192 | 抑制、治疗或减少 | | 联合治疗 | 172 | 联合药物治疗 | | 结合 | 136 | 直接分子结合 | | 比较 | 13 | 仅明确比较 | | 转化 | 13 | 一种化学物质转化为另一种 | | 药物相互作用 | 0 | 药理学药物相互作用 | 实验在BioREDirect数据集[11 (https://arxiv.org/html/2606.15412#bib.bib39)]上进行,该数据集包含手标注的PubMed摘要,具有六种实体类型和八种关系类型,如表1 (https://arxiv.org/html/2606.15412#S3.T1)所述。物种和细胞系实体以及基因-变异和疾病-疾病对不提供关系标注。关系类型分布高度不平衡,关联、正相关和负相关占所有关系实例的95%以上。我们的评估在测试集上进行,该测试集包含400篇摘要和6,036个标注的关系实例。 ### 3.2 模型 我们使用了来自两个最新开源LLM系列的模型:Gemma-4¹¹¹https://huggingface.co/collections/google/gemma-4和Qwen-3.5²²²https://huggingface.co/collections/Qwen/qwen35,这些模型在多项基准测试中展现了强劲性能。我们专注于中等规模变体(25–35B参数),可可靠部署在单个NVIDIA DGX Spark系统(128 GB统一内存)上。 评估的模型包括密集型和混合专家(MoE)架构。密集型模型为每个输入token使用所有参数,导致一致但计算昂贵的推理。相比之下,MoE模型每个token仅激活一部分参数(专家),降低了计算成本,同时保持了较高的总参数数量。 所有模型均使用全精度(BF16)和确定性解码进行评估,温度、存在惩罚和频率惩罚设置为0,top-p和top-k设置为1,并使用固定的随机种子。实验在有和没有启用*推理*(允许模型在生成最终响应前生成中间推理步骤)的情况下进行,这可能在以增加推理延迟为代价的情况下提高复杂任务的性能。 ### 3.3 任务 参见图注图2:针对包含N=5个实体的输入文本的BioRE任务形式比较。颜色高亮表示标注的实体。在成对分类设置中,每个实体对被独立评估,产生10个
相似文章
面向在线患者咨询的可操作分诊分类的小样本大语言模型
本文探讨了使用小样本提示的大语言模型对在线患者咨询进行可操作分诊分类,分为自我护理、预约就诊、紧急临床审查或急诊转诊。最佳模型(Claude Haiku 4.5,12次小样本提示)的macro-F1达到0.475,超过了有监督基线,但作者得出结论:LLMs可以支持分诊优先级排序和选择性人工审核,但不能自主部署。
用于生物医学声明验证的小型LLM:经济高效的微调、结构化数据集捷径与跨域泛化
使用QLoRA对小型LLM(3B-7B)进行生物医学声明验证的微调,以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数,并揭示了SciFact中的一个结构伪影。该研究表明,在结构合理的数据上进行训练可实现稳健的跨域迁移。
MedicalBench:评估大型语言模型以改进医学概念提取
MedicalBench是一个新的基准测试,用于评估大型语言模型从电子健康记录中提取医学概念的能力,重点关注隐含推理和证据支撑。它包含823个专家标注的示例,并显示当前模型表现一般,突显了提取隐含表述的医学概念的难度。
使用大型语言模型标注实体匹配的训练数据
本文研究使用大型语言模型作为教师模型来标注实体匹配的训练数据,结果表明,在机器标注数据上训练的学生模型与在人工标注基准上训练的模型性能相当,并且具有显著的成本和速度优势。
低成本概念级局部解释:无训练方法能走多远?
本文评估了多模态大语言模型(MLLMs)在图像局部概念命名中的零样本能力,提出了一种可复现的评估协议,在无训练的情况下实现了62-88%的对象级准确率。