医学中的语义推理:知识图谱在五个关键领域的作用
摘要
本综述回顾了知识图谱在医学中五个关键领域——临床决策支持、疾病预测、健康推荐系统、精准医学和医学问答——中的应用,讨论了挑战与未来方向。
arXiv:2606.15155v1 Announce Type: new
摘要:知识图谱(KGs)已成为整合和推理复杂生物医学与临床数据的有前景的解决方案。通过表示疾病、药物、症状和患者记录等实体之间的结构化关系,KGs 为决策、预测、推荐和个性化护理提供了语义基础。最近的进展展示了它们在多种医疗应用中的实用性——包括临床决策支持系统、疾病与治疗结果预测、健康推荐系统、精准医学和医学问答——其中 KGs 通常增强了可解释性、语义一致性和患者特定推理。与此同时,越来越多的研究专注于医学知识图谱本身的生成,提出了从电子健康记录、临床叙述、生物医学文献和网络资源构建图谱的框架,使用了本体、语义网技术、基于深度学习的信息抽取以及混合神经符号流程。尽管取得了这些进展,但重大挑战依然存在,包括知识覆盖有限且分散、异构数据源对齐困难、当前推理和表示学习方法在密集多关系图上的脆弱性,以及与隐私、偏见和问责相关的问题。本综述从面向应用和面向方法论两个维度回顾并分类了当前医学知识图谱的研究,讨论了它们的优势和技术基础,并概述了关键局限和开放研究方向。通过分析趋势、架构和评估实践,本工作旨在指导知识图谱驱动的医疗人工智能系统的未来发展,并支持其安全有效地集成到医疗环境中。
查看缓存全文
缓存时间: 2026/06/16 11:38
# 医学中的语义推理:知识图谱在五个关键领域的作用 来源:https://arxiv.org/html/2606.15155 ###### 摘要 知识图谱(KGs)已成为整合和推理医疗保健中复杂的生物医学和临床数据的一种有前景的解决方案。通过表示疾病、药物、症状和患者记录等实体之间的结构化关系,知识图谱为决策制定、预测、推荐和个性化护理提供了语义基础。近期的进展已证明它们在多种医疗应用中的实用性——包括临床决策支持系统、疾病和治疗结果预测、健康推荐系统、精准医学和医学问答——在这些应用中,知识图谱通常增强了可解释性、语义连贯性和患者特异性推理。与此同时,越来越多的工作专注于医学知识图谱本身的生成,提出了利用本体论、语义网技术、基于深度学习的信息提取和混合神经符号流水线,从电子健康记录(EHR)、临床叙述、生物医学文献和网络资源构建图谱的框架。尽管取得了这些进展,仍然存在重大挑战,包括知识覆盖有限且碎片化、异构数据源对齐困难、当前推理和表示学习方法在密集多关系图上的脆弱性,以及与隐私、偏见和问责相关的未解决问题。本综述从应用导向和方法导向两个维度回顾并分类了当前关于医学知识图谱的研究,讨论了它们的优势和技术基础,并概述了关键局限性和开放的研究方向。通过分析趋势、架构和评估实践,本工作旨在指导知识图谱驱动的医学人工智能系统的未来发展,并支持其安全有效地融入医疗保健环境。 ###### 关键词:医学知识图谱,临床决策支持,疾病预测,健康推荐系统,精准医学,问答系统,知识图谱生成,医疗数据整合 \*\*期刊:An Elsevier Journal\\affiliation \[aff1\]organization=数学与计算机科学系,addressline=阿米尔卡比尔理工大学,city=德黑兰,country=伊朗 ## 1 引言 医疗数据的指数级增长创造了对稳定、连贯且语义丰富的结构来存储和分析信息的迫切需求。在现有的表示范式中,知识图谱(KGs)已成为组织复杂、异构且通常敏感的医疗数据的一种强大方式。知识图谱最初由谷歌在2012年推广用于增强网络搜索,现在已广泛应用于包括生物医学和医疗保健在内的各个领域。从概念上讲,知识图谱由实体(节点)和关系(边)组成,通常编码为三元组(头实体 – 关系 – 尾实体)的形式,例如(药物 – 相互作用 – 药物)或(基因 – 翻译成 – 蛋白质)。这些图谱通常基于一个或多个本体,这些本体定义了实体和关系的类型,从而确保数据源之间的语义一致性。 然而,医疗数据呈现出独特的挑战。它们本质上是复杂的、多尺度的(从分子测量到临床结果),并且通常分布在异构系统中,如医院信息系统、注册中心和科研数据库。基于问卷的数据可能嘈杂或不稳定,进一步使整合和建模复杂化。在这种背景下,电子健康记录(EHRs)提供了相对结构化且一致的临床信息来源。EHRs捕获数字化的患者数据——包括诊断、程序、药物、实验室结果和临床笔记——这些数据可以映射到本体并以知识图谱形式表示,以支持下游分析任务\[30 (https://arxiv.org/html/2606.15155#bib.bib30)\]。 越来越多的工作表明,知识图谱为表示和整合生物医学与临床信息提供了有效的框架。研究人员要么构建特定任务的知识图谱,要么利用大型公开可用的图谱。例如,PrimeKG是一个为精准医学量身定制的多模态知识图谱,整合了20个精选来源的数据——包括药物、遗传、生物学和临床数据库——以统一跨领域的分散生物医学知识\[3 (https://arxiv.org/html/2606.15155#bib.bib3)\]。PrimeKG拥有超过129,000个节点和400万条边,连接了疾病、蛋白质、药物、生物学过程和解剖结构,并通过临床叙述和文本描述增强了这一结构。这种结构化关系与丰富语义上下文的结合旨在支持AI驱动的任务,如诊断、风险分层和药物再利用。其他大规模的工作同样说明了知识图谱如何将异构生物医学资源整合成一个连贯的整体。\[41 (https://arxiv.org/html/2606.15155#bib.bib41)\]提出了一个用于精准医学的多关系知识图谱,连接了基因、变异、疾病、药物、临床试验和支持性研究,同时明确建模关系类型,如变异–疾病效应、药物相互作用和药物不良反应。关系附有证据等级和置信度分数,支持对显性和隐性知识的推理。SPOKE是另一个广泛的生物医学知识图谱的例子,整合了来自41个数据库和11个本体的信息,连接了数百万个跨越遗传学、生物化学、药理学和疾病表型的实体\[37 (https://arxiv.org/html/2606.15155#bib.bib37)\]。在SPOKE中,本体在统一实体名称和关系方面起着核心作用,从而支持跨不同数据源的互操作性和复杂查询能力。此外,\[51 (https://arxiv.org/html/2606.15155#bib.bib51)\]引入了一个基于交互式知识图谱的平台,旨在支持与COVID-19相关的临床研究。在大流行期间,大量研究、临床报告和药物反应数据以前所未有的速度和数量发布,给研究人员检索和综合有用信息带来了巨大挑战。为了解决这个问题,作者提出了一个结合命名实体识别(NER)与文本摘要技术的框架,以结构化格式自动提取关于治疗、副作用和患者人口统计信息的关键信息。该框架整合了GROBID用于从PDF文档中提取结构化信息,spaCy用于预处理和文本摘要,以及Stanza等高级NER模型以准确检测临床实体。从文本中提取相关实体后,使用句法依存分析来识别它们之间的关系,基于规则的方法有助于形式化这些连接。由此产生的平台支持对知识图谱的可视化探索和交互,允许研究人员通过图形界面浏览、搜索和分析医疗信息,通过交互节点和边,深入挖掘临床证据、治疗结果和相关科学文献。 除了这些大型通用资源外,还开发了许多领域特定的知识图谱,以捕获专门临床或生物子领域的知识。例如,MiKG聚焦于肠-脑轴以及微生物组在心理健康中的作用\[29 (https://arxiv.org/html/2606.15155#bib.bib29)\]。在该工作中,作者系统地收集并对文献中的证据进行排名,提取了微生物物种、神经递质和精神疾病等实体,并将结果三元组与标准生物医学本体(例如UMLS、MeSH、SNOMED CT、KEGG)对齐。其结果是形成了一个可互操作的知识图谱,将碎片化的知识结构化为适合计算分析的形式。类似地,PharmKG专注于基因、药物和疾病之间的药理学关系;它整合了DrugBank、PharmGKB、OMIM、TTD和SIDER等精选资源,并通过多组学特征和文本表示丰富实体\[83 (https://arxiv.org/html/2606.15155#bib.bib83)\]。这些例子说明了一个普遍趋势:医学知识图谱越来越多地结合了精选的本体结构、高维特征和文本信息,从而实现了对生物医学现象的更丰富建模。 从方法论的角度来看,知识图谱提供了一个灵活的骨干,可以被一系列推理和学习技术所利用。传统的基于规则的方法(例如if-then规则)和经典的机器学习算法(如逻辑回归、随机森林或支持向量机)可以对源自知识图谱的特征进行操作,支持风险预测或警报生成等任务。最近,图表示学习——特别是图神经网络(GNNs)——已成为建模医学知识图谱的核心范式。GNNs迭代地聚合来自相邻节点的信息,以学习捕捉多跳关系和图结构的上下文感知表示,使其非常适合复杂任务,如疾病风险预测、药物-药物相互作用建模和患者分层\[39 (https://arxiv.org/html/2606.15155#bib.bib39)\]。这些模型可以整合知识图谱中编码的领域知识和EHRs中个性化的患者数据,从而弥合人群层面知识与个体层面信息之间的差距。 与此同时,大型语言模型(LLMs)的快速进展开辟了新的机会,将结构化知识图谱与强大的基于文本的推理系统相结合。知识图谱可以提供事实依据和显式结构,以减轻幻觉并提高可解释性,而LLMs可以作为自然语言接口,解释用户查询并将复杂的图谱衍生见解用语言表述出来。这种知识图谱-LLM集成在准确性可都至关重要的应用,如临床决策支持、问答和医学知识的交互探索中,具有特别的前景。 在此背景下,需要对知识图谱如何在关键医疗应用领域中被使用进行有重点的综合分析。现有的综述已回顾了基于图的方法或医学中的特定建模技术(例如医疗保健中的GNNs),但缺乏一个横切视角,能够按临床任务组织基于知识图谱的应用并突出其共同的优缺点。本综述通过提供关于医学知识图谱近期研究的结构化概述来弥补这一缺口,重点强调它们在端到端医疗保健应用中的作用。具体来说,本工作专注于那些明确或隐含地将知识图谱作为核心组件的研究,涉及:(i)临床决策支持系统,(ii)疾病和治疗结果预测,(iii)健康推荐系统,(iv)精准医学,以及(v)医学问答系统。除了按临床任务组织基于知识图谱的应用外,本综述还综合了关于医学知识图谱生成的近期方法论工作,突出了在构建高质量、领域特定图谱用于医疗保健时的常见设计模式和开放挑战。所纳入的研究基于时效性、学术相关性、临床应用的多样性以及知识图谱在提出框架中的核心地位进行选择。通过将这五项任务类别组织文献,我们旨在(1)阐明医学知识图谱在不同临床背景下如何构建和利用,(2)比较跨领域的方法论模式和设计选择,(3)识别共同的挑战和差距——如数据质量、互操作性、评估和可解释性——以及(4)概述知识图谱、机器学习和医疗保健交叉领域未来有前景的研究方向。 ## 2 医疗保健中知识图谱应用的分类 鉴于知识图谱在医学领域的广泛应用,需要一个概念框架来以连贯且比较的方式组织和分析现有文献。在本综述中,我们提出一个分类,将知识图谱的使用分为五个关键应用领域:(1)临床决策支持系统(CDSS),(2)疾病和治疗结果的预测建模,(3)健康推荐系统,(4)精准医学,以及(5)医学问答系统。这五个应用领域以及可解释性、混合AI和个性化等横切主题的概述如图1所示。 参考图说明 图1:本综述涵盖的五个应用领域的概念性概述——临床决策支持、预测、推荐系统、精准医学和医学问答。医学知识图谱构成了支持这些任务的语义核心,而可解释性、混合AI(KG + GNN + LLM)和个性化作为横切主题,塑造了基于知识图谱的系统设计和评估方式。 每个类别都有不同的目标、数据类型、技术方法和领域特定挑战。这种分类使得更结构化的分析成为可能,并有助于更深入地理解该领域持续的趋势和研究方向。这五个应用领域以及每个类别中审查的代表性基于知识图谱的任务的概述如图2所示。 参考图说明 图2:知识图谱在医疗保健中的应用,按第2节讨论的五项任务类别分组。每列列出了所调查文献中识别的代表性基于知识图谱的任务类型,如综合症诊断、药物组合预测、个性化药物推荐、基于数字双胞胎的糖尿病管理以及基于证据的医学问答。 ### 2.1 临床决策支持系统 临床决策支持系统(CDSS)旨在通过基于现有医学知识提供患者特定的建议,来提高护理质量、减少医疗错误并降低医疗成本。传统上,CDSS分为基于知识的系统(依赖于手动编码的专家规则,例如if-then逻辑)和非基于知识的系统(使用人工智能直接从历史临床数据中学习模式)\[12 (https://arxiv.org/html/2606.15155#bib.bib12)\]。知识图谱(KGs)越来越多地作为这两种范式的统一表示:它们将精选的医学知识和患者数据编码为语义丰富、机器可读的结构,支持CDSS中的逻辑推理、统计学习和混合方法。 第一组基于KG的CDSS侧重于诊断和临床记录的利用。\[71 (https://arxiv.org/html/2606.15155#bib.bib71)\]开发了一个基于KG的CDSS,用于中医(TCM)中的综合症诊断。电子病历条目被映射到中医KG作为不完整的三元组,并使用ComplEx等嵌入模型来推断缺失实体并对候选综合征进行排名,有助于消除跨综合征的重叠症状模式。在更一般的EHR背景下,\[44 (https://arxiv.org/html/2606.15155#bib.bib44)\]从异构的临床文档——患者记录、实验室结果、医生笔记——构建了一个知识图谱,并结合自然语言处理、机器学习、图神经网络和大数据分析来揭示患者之间潜在的关系……
相似文章
Lung-R1: 一种知识图谱引导的肺部诊断推理大语言模型
本文介绍了LungKG,这是第一个结构化的肺部知识图谱,以及Lung-R1,这是一个通过知识图谱约束推理和强化学习训练的大语言模型,用于从电子病历中进行肺部诊断推理。Lung-R1-14B在电子病历诊断上达到了最先进的性能。
知识图谱调制的深度学习用于有限样本临床数据分析
GiG是一个知识图谱调制的深度学习框架,它将生物知识图谱整合为边,患者特定数据作为节点特征,在有限样本临床任务中性能比现有最佳方法高出高达49%。
MHGraphBench:基于知识图谱的大语言模型心理健康知识基准测试
本文介绍了MHGraphBench,这是一个基于知识图谱的基准测试,用于评估大语言模型在心理健康知识方面的能力,包括实体识别、关系判断和多跳推理。对15个LLM的实验揭示了识别能力与判断能力之间存在差距。
知识图谱与向量数据库在企业AI中的应用:别再将其视为非此即彼的选择
文章认为,知识图谱与向量数据库在企业AI中服务于不同目的,应结合使用而非相互替代。它推荐采用混合架构或像60x这样的托管解决方案,以同时处理语义检索和结构推理。
基于大语言模型的循证智能诊断与治疗可视化系统:多轮交互与多模态治疗方案生成
本文提出了一种知识增强的中医视觉诊断系统,该系统使用Neo4j知识图谱、四阶段症状匹配流程以及信息增益驱动的主动提问策略,以提升透明度和可解释性。结果表明,该显著提高了诊断信任度并降低了认知负荷。