将结构化生物医学知识注入语言模型:持续预训练与GraphRAG对比
摘要
# 将结构化生物医学知识注入语言模型:持续预训练与GraphRAG 来源:[https://arxiv.org/html/2604.16422](https://arxiv.org/html/2604.16422) ###### 摘要 将领域特定知识注入模型对于使语言模型(LMs)适应生物医学等专业领域至关重要。尽管目前大多数方法依赖于非结构化文本语料库,但本研究探讨了两种利用UMLS元术语表(Metathesaurus)中结构化知识的互补策略:
查看缓存全文
缓存时间: 2026/04/21 07:02
# 向语言模型注入结构化生物医学知识:持续预训练与 GraphRAG 来源:https://arxiv.org/html/2604.16422 ###### 摘要 领域特定知识的注入对于将语言模型(LMs)适配至生物医学等专业领域至关重要。尽管当前大多数方法依赖于非结构化文本语料库,本研究探讨了两种利用 UMLS Metathesaurus 中结构化知识的互补策略:(i) **持续预训练(Continual Pretraining)**,将知识嵌入模型参数中;(ii) **图检索增强生成(GraphRAG)**,在推理时查询知识图谱。我们首先基于 UMLS(包含 340 万个概念和 3420 万条关系)构建了一个大规模生物医学知识图谱,并存储于 Neo4j 中以支持高效查询。随后,我们从该图谱派生出一个 1 亿 token 的文本语料库,并对两个模型执行持续预训练:BERTUMLS(基于 BERT)和 BioBERTUMLS(基于 BioBERT)。我们在涵盖五种任务类型的六个 BLURB(生物医学语言理解与推理基准)数据集上评估了这些模型,并在两个问答(QA)数据集(PubMedQA、BioASQ)上评估了 GraphRAG。在 BLURB 任务中,BERTUMLS 的性能优于原始 BERT,其中在知识密集型 QA 任务上的提升最为显著。对 BioBERT 的影响则更为复杂,表明当基座模型已编码大量生物医学文本知识时,持续预训练的收益会出现边际递减。最后,在不进行任何重新训练的情况下,使用我们的 GraphRAG 流程增强 LLaMA 3-8B 使其在 PubMedQA 上的准确率提升超过 3 个百分点,在 BioASQ 上提升超过 5 个百分点,实现了透明、支持多跳推理且易于更新的知识访问能力。我们公开发布了处理后的 UMLS Neo4j 图谱以支持研究可复现性。 关键词:知识注入、语言模型、生物医学 NLP、知识图谱、UMLS、持续预训练、GraphRAG \NAT@set@cites Injecting Structured Biomedical Knowledge into Language Models: Continual Pretraining vs. GraphRAG Jaafer Klila∗†, Sondes Bannour Souihi∗, Rahma Boujelben†Nasredine Semmar∗, Lamia Hadrich Belguith† ∗巴黎萨克雷大学,CEA, List,Palaiseau,法国 [email protected] {sondes.souihi, nasredine.semmar}@cea.fr †萨克斯大学,萨克斯,突尼斯 {rahma.boujelbane, lamia.belguith}@fsegs.usf.tn Abstract content ## 1. 引言 语言模型(LMs)正迅速变革自然语言处理(NLP)领域,使机器能够以惊人的流畅度理解和生成人类语言。在生物医学领域,早期的预训练语言模型(PLMs),如 BioBERT[Lee et al.(2020) (https://arxiv.org/html/2604.16422#bib.bib23)]、ClinicalBERT[Alsentzer et al.(2019) (https://arxiv.org/html/2604.16422#bib.bib47)] 和 PubMedBERT[Gu et al.(2021) (https://arxiv.org/html/2604.16422#bib.bib48)],通过在大型生物医学语料库(包括 PubMed111https://pubmed.ncbi.nlm.nih.gov/download/、PMC222https://pmc.ncbi.nlm.nih.gov/ 和 MIMIC-III[Johnson et al.(2016) (https://arxiv.org/html/2604.16422#bib.bib51)])上进行预训练扩展了 BERT[Devlin et al.(2019) (https://arxiv.org/html/2604.16422#bib.bib41)] 的能力,通过更丰富的生物医学术语和话语语境化取得了显著增益。 近年来,诸如 GPT-4[Achiam et al.(2023) (https://arxiv.org/html/2604.16422#bib.bib30)]、DeepSeek[Liu et al.(2024) (https://arxiv.org/html/2604.16422#bib.bib31)] 以及 Llama 4 模型[AI@Meta (2025) (https://arxiv.org/html/2604.16422#bib.bib32)] 等大型语言模型在多项通用基准测试中展现出具有竞争力甚至达到人类水平的性能,进一步推高了领域适配的预期。 尽管取得上述进展,但知识密集型领域仍面临多重挑战。首先,由于 LMs333本文使用“LMs”统指 PLMs 和 LLMs。是基于数据的静态快照进行训练的,它们往往缺乏最新的事实知识,难以反映近期研究成果[He et al.(2022) (https://arxiv.org/html/2604.16422#bib.bib33)]; [Melnyk et al.(2021) (https://arxiv.org/html/2604.16422#bib.bib34)]。其次,它们可能产生高度确信但错误的答案[Jie et al.(2023) (https://arxiv.org/html/2604.16422#bib.bib35)]; [Bang et al.(2023) (https://arxiv.org/html/2604.16422#bib.bib36)],且模型幻觉仍是其突出的失效模式[Huang et al.(2025) (https://arxiv.org/html/2604.16422#bib.bib40)]。第三,模型的预测通常不透明:很难追溯、验证或引用答案所依据的来源[Pan et al.(2024) (https://arxiv.org/html/2604.16422#bib.bib37)]。最后,由于 LMs 本质上是概率性的下一个词预测器,若仅依赖非结构化文本,它们对结构化或语义关系(如同义性、层级分类以及生物医学实体间的多跳关联)的访问仍然是间接的。这一缺陷在生物医学问答等任务中尤为受限,因为此类任务的准确推理往往依赖于跨越规范资源链式连接多个关系。 上述局限性表明,需要超越单纯基于原始文本继续预训练的方法,转而直接向建模流程中注入结构化、可验证的知识。在本文中,我们探究了两种基于 UMLS Metathesaurus444https://uts.nlm.nih.gov/uts/umls/home 的互补策略。第一种是参数化策略,即在经过图谱转文本处理的语料库上进行持续预训练,使知识嵌入到模型的参数中,从而在推理时始终可用。第二种是非参数化策略,即 GraphRAG[Han et al.(2024) (https://arxiv.org/html/2604.16422#bib.bib53)],它将知识外部化并存储在 Neo4j555https://neo4j.com/graph 中,在推理时检索相关子图,从而实现可解释性(可检查的路径)、通过遍历实现的多跳推理,以及通过刷新图谱而非重新训练模型来实现快速更新。 具体而言,我们构建了一个基于 UMLS 的大规模生物医学知识图谱,公开地址为:https://github.com/jaaferklila/UMLS_knowledge_graph,并从中派生出一个 1 亿 token 的文本化语料库。随后,我们 (i) 执行持续预训练以获得 BERTUMLS(源自 BERT)和 BioBERTUMLS(源自 BioBERT),(ii) 基于 LLaMA 3-8B 实现 GraphRAG 流水线,以便在推理时查询该图谱。评估工作覆盖六个 BLURB 数据集[Gu et al.(2021) (https://arxiv.org/html/2604.16422#bib.bib48)],涵盖五种任务类型,GraphRAG 则在两个知识密集型 QA 数据集(PubMedQA、BioASQ)上进行评测。结果初步揭示了两种策略的各自优势:持续预训练对通用域基座模型带来的提升最大,而对领域专用基座模型的影响则更为复杂,表明当生物医学知识已被良好编码时收益会边际递减。相比之下,GraphRAG 在不重新训练的情况下即可提升两个 QA 数据集的性能,促进了透明、多跳且易于更新的知识访问。本文其余部分组织如下:第 2 节综述此前解决生物医学知识注入任务的相关工作;第 3 节详细介绍 UMLS 图谱构建与图谱转文本处理过程,并阐述持续预训练设置与 GraphRAG 流水线;第 4 节报告并讨论实验结果;第 5 节总结全文并提出未来工作方向。 ## 2. 相关工作 注入领域特定知识被广泛认为是提升语言模型在专业场景中可靠性与实用性的关键杠杆。近期的调查文章总结了四种主要的适配范式:在领域特定语料库上进行持续预训练、通过模块化适配器进行知识注入、用于动态信息获取的检索增强生成(RAG),以及提示优化方法[Song et al.(2025) (https://arxiv.org/html/2604.16422#bib.bib43)]。在生物医学领域,持续预训练依然是一个强有力的基线方案:PMC-LLaMA 在庞大的论文与教材语料库上适配了通用 LLaMA 模型[Wu et al.(2024) (https://arxiv.org/html/2604.16422#bib.bib42)],而 BioMedLM 则完全基于 PubMed 训练了 27 亿参数的模型[Bolton et al.(2024) (https://arxiv.org/html/2604.16422#bib.bib44)]。这些以文本为中心的方法提升了流畅度与覆盖范围,但它们通常仅隐性编码同义性、类型划分及因果或治疗链接等关系,且需耗费巨大成本重新训练才能保持时效性。另一条互补的研究脉络聚焦于显式化结构化知识。OntoTune[Liu et al.(2025) (https://arxiv.org/html/2604.16422#bib.bib45)] 提出由本体驱动的自训练方法,利用上下文学习检测并修复概念缺口,以使大语言模型与 SNOMED CT[Schulz and Klein (2008) (https://arxiv.org/html/2604.16422#bib.bib54)] 等层级化资源对齐。与此同时,BiomedRAG[Liu et al.(2025) (https://arxiv.org/html/2604.16422#bib.bib46)] 证明了在推理时检索分块生物医学文档的非参数化知识访问价值,在多项生物医学 NLP 任务上取得增益。然而,即便在此类系统中,知识大多仍以文本形式交付,这可能稀释实体级关系、增加多跳推理的复杂度并阻碍可解释性。此外,知识更新通常仍与重新训练管线或大规模重索引绑定。 本研究通过将结构化知识具象化为图谱,并在同一底层生物医学资源上对比两种互补的注入策略来弥补上述空白。我们在 Neo4j 中构建基于 UMLS 的知识图谱,并以此单一来源为起点,推进两条路径:(i) 参数化路径,在对图谱转文本语料库进行持续预训练后,在通用模型(BERT)和专用模型(BioBERT)上进行测试;(ii) 非参数化路径,实现 GraphRAG,在推理时为生成式 LLaMA 家族模型检索子图。该设计隔离了访问模式(嵌入式 vs 检索式)的作用,并直接针对可解释性(可查验的证据链)、多跳推理(图谱遍历)与新鲜度(刷新图谱而非重训模型)。与以往纯依赖生物医学文本或在引入本体信号的同时缺乏与图谱中心检索对比的研究不同,本研究提供了一个受控视角,用以阐明应如何注入结构化知识以最大化下游效用。 ## 3. 知识注入方法论 我们探究了向语言模型注入结构化生物医学知识的两条互补途径。首先,我们通过基于 UMLS 知识图谱派生的知识进行持续预训练,随后在下游生物医学 NLP 任务上进行微调,以此构建 BioBERTUMLS 和 BERTUMLS,并评估其在领域特定应用中的有效性。其次,我们借助构建于 LLaMA 系列之上的 GraphRAG 框架在推理阶段评估结构化证据的价值,专门面向问答任务。我们流水线的整体架构如图 1 所示 (https://arxiv.org/html/2604.16422#S3.F1)。 我们的知识来源是 UMLS-2024AA Metathesaurus,它是 UMLS 中最大的组件,整合了生物医学概念、概念名称、语义类型及概念间关系。我们据此发布版本构建知识图谱,并将其同时用于生成持续预训练所需的文本化语料库以及在推理阶段驱动基于图谱的检索。这种单一来源的设计确保了对参数化(预训练)与非参数化(GraphRAG)策略的比较仅反映访问模式的差异,而非内容来源的差异。 具体而言,第 3.1 节介绍 UMLS 背景,第 3.2 节描述图谱构建过程,第 3.3 节阐述基于持续预训练的知识注入方法,第 3.4 节介绍基于托管于 Neo4j 的图谱与 LLaMA 搭配的生物医学 QA 设置。 参考说明Figure 1:基于 UMLS 的知识注入流水线概览:在 BERT/BioBERT 上进行持续预训练与 GraphRAG。### 3.1. 统一医学语言系统(UMLS) 统一医学语言系统(UMLS)[U.S. National Library of Medicine (2024) (https://arxiv.org/html/2604.16422#bib.bib13)] 是由美国国家医学图书馆维护的全面生物医学词汇与本体聚合体。UMLS-2024AA Metathesaurus 整合了超过 200 种源词汇表,提供统一的映射层以跨异构术语体系对接概念。UMLS 围绕三个互补资源组织: - • **Metathesaurus**:核心组件,包含生物医学概念信息、来自源词汇表的各类名称(术语)及其相互关系。 - • **Semantic Network**:提供一致的范畴分类,将 Metathesaurus 中的所有概念归入一组广泛的 Semantic Types(例如 ‘Disease or Syndrome’、‘Pharmacologic Substance’),并定义这些类型间允许的关系。 - • **SPECIALIST Lexicon** 及相关词法工具为英语生物医学术语提供句法信息,支持词性标注和形态分析等自然语言处理任务。 Metathesaurus 以关系型风格的 RRF 表格分发,在本工作中我们主要依赖 MRCONSO.RRF(概念名称、来源、标识符)、MRDEF.RRF(定义)、MRSTY.RRF(语义类型)以及 MRREL.RRF(概念间关系)。 ### 3.2. 知识图谱构建 知识图谱(KG)是对现实世界实体及其关系的语义表示,通常建模为三元组 $(h, r, t)$,其中 $h$ 为头实体,$t$ 为尾实体,$r$ 为关系。形式化地,KG 可表示为: $KG = \{(h, r, t)\}$ 构建我们 KG 的流水线如图 2 所示 (https://arxiv.org/html/2604.16422#S3.F2)。我们从核心 UMLS 表(MRCONSO、MRDEF、MRSTY 和 MRREL)出发,按以下步骤进行。 参考说明Figure 2:从 UMLS Metathesaurus 构建生物医学知识图谱的流水线。**概念提取与过滤**。从包含约 1700 万条记录的 MRCONSO 表中提取概念名称。由于同一概念在不同语言和词汇表中可能有多个名称,我们进行过滤,仅保留来自英语源语言的英语条目(LAT='ENG'),以确保语言学一致性。 **定义聚合**。MRDEF 表提供了来自 MeSH 和 CSP 等源的 466,842 条概念定义。处理后,我们确定了 287,972 个带定义的独特英语概念,共 339,341 条定义;其中 32,219 个概念拥有多条定义。例如,概念 C0018798(先天性心脏缺陷)关联了 24 条独立定义。为保留这种丰富性,我们将给定概念的所有定义用分隔符合并为一个字段,以供下游访问。 **语义类型分配**。每个概念的语义类型来源于 MRSTY 表,该表将概念唯一标识符(CUIs)链接到 127 种独立语义类型之一或多种(例如 ‘Disease or Syndrome’、‘Gene or Genome’)。这为我们的 KG 中所有实体提供了高层分类。 **关系抽取**。关系结构源自 MRREL,包含 6290 万条关系,涵盖 1035 种独特的关系类型(RELA 值)。在过滤仅限英语概念并移除自关系(CUI1 = CUI2)后,最终集合包含 3420 万条涉及 339 万个概念的关系,覆盖 1005 种独立类型。当缺少 RELA 值时,我们使用更通用的 REL 值替代以避免数据丢失;这一启发式方法恢复了超过 9 个有意义的关系 fo
相似文章
基于语言模型的知识图谱构建
昆明大学的综述论文调研了如何利用预训练语言模型自动化构建知识图谱,并提出了轻量级大语言模型框架LLHKG,其性能可媲美GPT-3.5。
构建 Agentic GraphRAG 系统:从知识图谱和本体论到作为 AI 智能体 MCP 服务器的统一记忆
作者认为 GraphRAG 本质上是一个数据建模问题,而非单纯的检索算法,并提出了一种包含五个组件的架构,利用本体论、知识图谱和 MCP 服务器为智能体提供统一记忆。
大语言模型预训练的数据混合:综述与展望
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混
面向南非结核病诊疗的领域专用大语言模型开发与初步评估
研究人员使用QLoRA与GraphRAG对BioMistral-7B进行微调,构建面向南非结核病诊疗的LLM,在上下文对齐方面优于基座模型。
用于评估知识图谱构建方法和图神经网络的统一基准
本文介绍了一个统一的基准测试,旨在评估图神经网络在基于文本构建的噪声知识图谱上的鲁棒性,以及生物医学领域图构建方法的有效性。