知识图谱调制的深度学习用于有限样本临床数据分析

arXiv cs.LG 论文

摘要

GiG是一个知识图谱调制的深度学习框架,它将生物知识图谱整合为边,患者特定数据作为节点特征,在有限样本临床任务中性能比现有最佳方法高出高达49%。

arXiv:2605.24162v1 公告类型:新 摘要:生物系统由结构化的分子相互作用所支配,其中通路、调控回路和功能基因关系塑造了细胞行为和疾病进展。这些知识大部分自然表示为图。然而,大多数生物医学AI模型无法直接使用图编码的生物知识,而是需要压缩的低维表示,这可能会丢失重要结构并降低性能,尤其在有限样本临床研究中。在此,我们介绍了Graph-in-Graph(GiG),一种面向数据高效临床预测的知识图谱调制深度学习框架。GiG将每位患者表示为一个独立的模块化图,其中策划的生物知识图谱定义边,患者特定测量(如基因表达)定义节点特征。这种设计允许在患者级表示学习过程中整合多个生物知识图谱,同时保留基因-基因相互作用和通路拓扑。在涵盖近9700名患者和五个临床任务(包括液体活检癌症检测、前列腺癌诊断和32类泛癌分类)的队列中,GiG持续优于传统和最新方法,在有限样本设置中改进最大。在前列腺癌诊断这一挑战性任务中,GiG相对于竞争方法将macro-F1提高了高达49个百分点。用随机拓扑替换真实通路图的对照实验证实,这些收益源于基于生物学的知识图谱结构,而非单纯的图建模。这些发现表明,知识图谱调制的深度学习可以提高临床数据分析的鲁棒性、可解释性和样本效率,并为将生物知识图谱整合到预测建模中提供了一个原则性框架。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:01

# 知识图谱调制的深度学习用于有限样本临床数据分析

来源:https://arxiv.org/html/2605.24162

 于伟雪、Sakib Mostafa  
斯坦福大学放射肿瘤学系,斯坦福,加利福尼亚,美国  
共同第一作者  
James Zou  
斯坦福大学电气工程系,斯坦福,加利福尼亚,美国  
斯坦福大学医学院生物医学数据科学系,斯坦福,加利福尼亚,美国  
斯坦福大学计算机科学系,斯坦福,加利福尼亚,美国  
Joseph Liao  
斯坦福大学医学院泌尿外科,斯坦福,加利福尼亚,美国  
Maximilian Diehn  
斯坦福大学放射肿瘤学系,斯坦福,加利福尼亚,美国  
斯坦福癌症研究所,斯坦福,加利福尼亚,美国  
斯坦福大学干细胞生物学与再生医学研究所,斯坦福,加利福尼亚,美国  
Ash A. Alizadeh  
斯坦福大学医学院肿瘤内科,斯坦福,加利福尼亚,美国  
Lei Xing  
斯坦福大学放射肿瘤学系,斯坦福,加利福尼亚,美国  
斯坦福大学电气工程系,斯坦福,加利福尼亚,美国  
斯坦福大学计算与数学工程研究所,斯坦福,加利福尼亚,美国  
Md Tauhidul Islam  
斯坦福大学放射肿瘤学系,斯坦福,加利福尼亚,美国  

###### 摘要

生物系统由结构化的分子相互作用所支配,其中通路、调控回路和功能基因关系塑造了细胞行为与疾病进展。这些关键的生物学知识中有很大一部分可以自然地表示为图。然而,大多数生物医学AI模型无法直接整合图形式的知识,而需要生物知识的低维表示。这种压缩常常导致信息丢失,并在临床研究中经常遇到的有限样本场景下显著降低模型性能。在此,我们提出Graph-in-Graph(GiG),一个知识图谱调制的深度学习框架,用于从有限患者样本中进行数据高效的临床预测。GiG将每位患者表示为一个独立的模块化图,其中经过整理的生物学知识图谱可以作为边整合进来,而患者特异性信息(如基因表达谱)则可以作为节点特征。这种灵活的设计使得多个生物学知识图谱能够被整合,同时让模型学习保留生物学意义信息(包括基因-基因相互作用和通路拓扑结构)的患者级疾病表示。在包含近9700名患者的多个患者队列以及五项临床任务中——包括来自斯坦福医院液体活检数据集的癌症检测、前列腺癌诊断和32类泛癌分类——GiG始终以较大幅度优于传统方法,尤其在有限样本场景下。在具有挑战性的前列腺癌诊断任务中,与最先进(SOTA)方法相比,GiG将宏F1性能提升了高达49个百分点。用随机拓扑替换真实通路图的对照实验证实,性能提升源于基于生物学的知识图谱结构,而非单纯的图建模。这些发现表明,知识图谱调制的深度学习可以提高临床数据分析中的鲁棒性、可解释性和样本效率,为将生物学知识图谱整合到预测建模中提供了一个原则性框架。

## 1 引言

生物系统在多个功能层次上组织,分子相互作用形成基因通路,这些通路共同决定细胞行为和疾病表型。在这些系统中,基因并非孤立运作,而是参与相互连接的通路、信号级联、结构化调控回路和代谢途径,这些通过分子与系统生物学数十年的研究已被绘制和记录[8 (https://arxiv.org/html/2605.24162#bib.bib15),5 (https://arxiv.org/html/2605.24162#bib.bib21)]。现代基因组学检测手段(如批量转录组测序、单细胞测序和液体活检)现已在大型患者队列中以高分辨率测量这种分子活性,创造了以先前无法企及的规模将基因水平测量与临床结果联系起来的机会[32 (https://arxiv.org/html/2605.24162#bib.bib17)]。这些机会能否转化为临床上有用的预测模型,在很大程度上取决于能够整合生物学组织结构的计算框架,而非将转录组数据视为一个无结构的值列表传递给通用模型[4 (https://arxiv.org/html/2605.24162#bib.bib16)]。

参见图注

图1:所提出的GiG框架的工作流程。GiG通过整合转录组图谱与经过整理的生物学通路知识,构建患者特异性分子相互作用图。从测序衍生的基因表达数据开始,基于样本特异性基因表达谱为每位患者选择相关通路。然后合并经过整理的通路相互作用,生成一个分子相互作用图,其中节点代表基因,边编码已知的生物学关系。这些患者特异性图随后用作图神经网络(GNN)分类器的输入,从而实现跨样本队列的图级学习。学习到的图表示随后可应用于下游预测任务,如疾病分类和回归。

如今大多数基因组学机器学习管线仍将表达数据视为一个平面表格[9 (https://arxiv.org/html/2605.24162#bib.bib18),31 (https://arxiv.org/html/2605.24162#bib.bib34)]。基因值成为矩阵中的列,分类器搜索这些列的某种组合以区分疾病状态与健康状态。这种框架为标准深度学习架构提供了便利的输入,然而它忽略了底层生物学的两个基本属性。首先,基因参与经过整理的交互网络,其拓扑结构已通过大量实验验证确立,并具有真实的生物学意义[22 (https://arxiv.org/html/2605.24162#bib.bib35),33 (https://arxiv.org/html/2605.24162#bib.bib36),14 (https://arxiv.org/html/2605.24162#bib.bib37)]。其次,给定通路的活性在不同患者之间差异显著[5 (https://arxiv.org/html/2605.24162#bib.bib21)],因此单一固定的网络表示无法捕捉分子信号在疾病队列中的个体间分布情况。针对生物医学应用开发的图神经网络方法通过引入先验交互图部分解决了第一个属性[37 (https://arxiv.org/html/2605.24162#bib.bib38)],但大多数现有方法依赖于所有样本共享的单一全局网络,或构建患者相似性网络,其中每位患者又被降维为特征向量[34 (https://arxiv.org/html/2605.24162#bib.bib20)]。这两种设计都不允许通路拓扑和患者特异性表达在消息传递层面进行交互。

一些工作已经从不同角度探索了该问题的部分内容。通路信息的神经网络架构通过约束层连接以遵循经过整理的生物学分组,从而产生内部结构反映典型通路注释的模型[6 (https://arxiv.org/html/2605.24162#bib.bib5),10 (https://arxiv.org/html/2605.24162#bib.bib29),19 (https://arxiv.org/html/2605.24162#bib.bib30),17 (https://arxiv.org/html/2605.24162#bib.bib31)]。应用于蛋白质-蛋白质交互网络的图神经网络已表明,在生物学拓扑结构上进行消息传递可以提高基因级和样本级预测任务的性能[12 (https://arxiv.org/html/2605.24162#bib.bib22),21 (https://arxiv.org/html/2605.24162#bib.bib27),7 (https://arxiv.org/html/2605.24162#bib.bib28)]。患者相似性网络结合临床和分子特征以在队列间传播标签信息,利用表型相似患者常共享结局的观察[15 (https://arxiv.org/html/2605.24162#bib.bib23),36 (https://arxiv.org/html/2605.24162#bib.bib24),26 (https://arxiv.org/html/2605.24162#bib.bib32)]。最近的工作已将图基础建模扩展到生物医学网络,学习可迁移的结构表示,并可通过有限标注数据适应多种图分析任务[11 (https://arxiv.org/html/2605.24162#bib.bib25),9 (https://arxiv.org/html/2605.24162#bib.bib18),23 (https://arxiv.org/html/2605.24162#bib.bib33)]。然而,目前尚无方法能够将每位患者表示为其自身的通路结构化图,交互拓扑集成到每个样本中,而非作为跨队列共享的外部先验。

在此,为克服现有方法的局限性并将生物学知识作为独立图整合到深度学习管线中,我们引入Graph-in-Graph(GiG),一个框架,其中每位患者被表示为一个通路结构化图,下游任务则跨这样一组图进行。节点对应来自患者转录组图谱的基因,边编码来源于WikiPathways[2 (https://arxiv.org/html/2605.24162#bib.bib13)]经过整理的生物学通路拓扑,从而将分子交互的功能组织直接编码到每个样本的图中。节点特征结合了患者基因表达值、一个可学习的基因身份嵌入(将每个节点锚定到其在队列中的分子角色)以及一个源自样本间相关结构的共表达信号。边权重由相同的相关结构设置,使得通路拓扑在消息传递过程中影响信息如何传播,而患者特异性表达则控制着沿边实际传播的信息是什么。在这种公式中,底层通路结构位于高层患者图内部,不是作为一个单独的预处理步骤,而是作为图本身的一个固有组成部分。由于该设计是骨干网络无关的,GiG可以实例化为GCN、GraphSAGE、GIN、GAT或任何兼容的图神经网络,这使得我们能够将通路结构化表示的贡献与消息传递架构的选择分离开来。

我们在多个转录组队列上评估了GiG,总计近9700名患者,涉及五项分类任务,包括一个液体活检数据集(RareSeq)[25 (https://arxiv.org/html/2605.24162#bib.bib10)]、一个前列腺癌队列[6 (https://arxiv.org/html/2605.24162#bib.bib5)]以及一个来自TCGA的32类多组学泛癌基准[18 (https://arxiv.org/html/2605.24162#bib.bib26)]。最显著的提升来自泛癌分类任务,这是三个队列中最具挑战性的一个,因为每类患者样本有限。在32种癌症类型中,GiG实现了92%的准确率和88%的宏F1,而基于相同输入的最强基线常规图神经网络仅达到63%准确率和39%的F1,在不改变底层表达数据或训练方案的情况下,宏F1提升高达49%。同样的模式——在标准骨干网络上持续改进——在液体活检和前列腺癌队列中也得到验证。为确认这些提升来自通路拓扑本身而非仅来自节点特征,我们将真实通路图替换为Erdős–Rényi和保度随机构造,并测量由此导致的分类准确率下降。我们还使用图元轨道统计量表征了真实图的结构独特性,结果显示,在每个数据集和任务中,通路衍生拓扑占据的结构特征空间区域与两种随机图族清晰分离。

总之,在此我们提出一种每患者图公式,将通路拓扑直接整合到每个样本中,超越了当前基于图的基因组学建模中普遍采用的共享全局网络假设。通过严格验证,我们在三个异构队列和五项分类任务(在样本量、疾病粒度、类别基数和类别平衡方面各不相同)中展示了持续的性能提升,表明通路结构化建模的好处并不局限于单个基准或任务类型。我们还通过受控结构扰动和图元轨道分析验证,观察到的提升来自通路拓扑本身,而非孤立表达特征。综合来看,这些结果将GiG定位为精准医学中转录组数据预测建模的实用基础,其中生物学的组织结构不再被视为平面特征向量的附加内容,而是模型的一个结构性组成部分。

## 2 结果

### 2.1 GiG在基于斯坦福医院超灵敏cfRNA数据集的癌症亚型和分期分类中优于最先进的GNN

我们首先评估了GiG在RARE-Seq cfRNA数据集[25 (https://arxiv.org/html/2605.24162#bib.bib10)](来自斯坦福医院)中准确检测癌症并预测癌症亚型和分期的能力。RARE-Seq旨在检测血浆中极低丰度的肿瘤衍生转录本。与基于组织的转录组数据集(其中肿瘤信号相对较强且局部化)不同,cfRNA测量反映了高度稀释且碎片化的肿瘤生物学表征,嵌入在来自多种组织来源的循环RNA背景中[35 (https://arxiv.org/html/2605.24162#bib.bib11),24 (https://arxiv.org/html/2605.24162#bib.bib12),20 (https://arxiv.org/html/2605.24162#bib.bib19)]。换句话说,RARE-Seq数据集的特点是低信噪比、显著的患者间异质性以及严重的类别不平衡。因此,在此数据集中准确预测癌症存在与否、亚型和分期,需要模型提取微弱且分布式的信号,这些信号常被噪声和变异性掩盖。在本研究中,遵循传统基因表达数据预处理方法,我们从RARE-Seq数据集的超过60,000个基因中选择了10,000个高变异基因(HVG)来训练和测试我们的模型。通过关注在样本间表现出最大变异性的基因,这种设置使我们能够捕捉疾病状态之间具有生物学意义的差异,同时减少低方差、噪声主导特征的影响。

在图2e中,我们的结果表明,在二分类、分期和亚型分类任务中,GiG始终优于节点级图神经网络基线——包括GAT、GCN、GIN和GraphSAGE(图2e、S2)。其性能优势在二分类任务中最为显著,GiG在所有评估指标上均取得最高得分。具体来说,GiG达到89%的准确率和88%的宏F1得分,在准确率上超出最强基线超过15%,在宏F1得分上超出14%。GiG还展示了卓越的敏感性(88%)和特异性(89%),表明在两个类别上均表现强劲且均衡。相比之下,即使是最强的基线模型GCN,准确率也仅为约74%。

相似文章

将结构化生物医学知识注入语言模型:持续预训练与GraphRAG对比

arXiv cs.CL

# 将结构化生物医学知识注入语言模型:持续预训练与GraphRAG 来源:[https://arxiv.org/html/2604.16422](https://arxiv.org/html/2604.16422) ###### 摘要 将领域特定知识注入模型对于使语言模型(LMs)适应生物医学等专业领域至关重要。尽管目前大多数方法依赖于非结构化文本语料库,但本研究探讨了两种利用UMLS元术语表(Metathesaurus)中结构化知识的互补策略: