TRAPS: 基于通路信息分层的治疗反应分析

arXiv cs.LG 2026/06/10 04:00 论文

摘要

本文提出了首个用于通路引导的治疗反应建模的统一基准，评估了三种生物学信息驱动的架构（BINN、GraphPath、PATH），在来自癌症基因组图谱的五个癌症队列上，对靶向治疗、放射治疗和生存结局进行多标签预测。

arXiv:2606.09898v1 Announce Type: new 摘要：癌症治疗规划需要同时涉及多个临床维度的决策。临床医生必须判断患者是否应接受靶向分子治疗、放射治疗，以及患者是否有可能存活超过六个月。现有的通路信息驱动的深度学习模型是独立开发和测试的，因此无法在不同架构之间进行公平比较。我们提出了首个用于通路引导的治疗反应建模的统一基准，评估了三种具有生物学信息驱动的架构——BINN、GraphPath和PATH，这些模型在来自癌症基因组图谱的五个癌症队列上进行测试，共包含2,622名患者，其数据使用Reactome通路活性评分进行编码。每个模型在相同的数据和评估条件下对全部三个临床结局进行联合训练，这是第一项将通路结构化的深度学习作为联合治疗和生存预测问题的研究。我们的结果表明，没有一个单一架构能在所有任务中获胜：PATH在整体靶向分子治疗预测中表现最佳，BINN在生存预测中最可靠，而没有任何模型能对放射治疗产生有用的预测，因为该决策的关键驱动因素是无法从基因表达数据中获取的临床变量。最引人注目的是，GraphPath在前列腺癌靶向分子治疗预测中达到了0.92的AUROC，这是整个基准中的最高分，表明当与具有狭窄可靶向驱动程序的队列匹配时，即便在阳性率仅为11%的极端类别不平衡条件下，横向共调控结构也能产生出色的判别能力。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:17

# TRAPS：基于通路信息的治疗反应分层

来源：https://arxiv.org/html/2606.09898
\(2026\)

###### 摘要

癌症治疗方案制定需要在多个临床维度上同时做出决策。临床医生必须确定患者是否应接受靶向分子治疗、放射治疗，以及患者是否可能存活超过六个月。现有的基于通路信息的深度学习模型是孤立开发和测试的，因此无法在不同架构间进行公平比较。我们首次提出了一个统一的基准测试，用于评估基于通路指导的治疗反应建模，该测试涵盖了三种生物信息学架构（BINN、GraphPath 和 PATH），并使用了来自癌症基因组图谱的五个癌症队列，代表了用 Reactome 通路活性评分编码的 2,622 名患者。每个模型在完全相同的数据和评估条件下，同时针对所有三种临床结局进行联合训练。这是首次将基于通路结构的深度学习视为一个结合了治疗和生存预测问题的研究。我们的结果表明，没有一种架构在所有任务中表现最佳：整体而言，PATH 在靶向分子治疗预测方面表现最好，BINN 在生存预测方面最可靠，而没有任何模型能对放射治疗产生有用的预测，因为该决策的关键驱动因素是临床变量，而非基因表达数据所捕获的信息。最引人注目的是，GraphPath 在前列腺癌靶向分子治疗预测上达到了 0.92 的 AUROC，这是整个基准测试中的最高分，表明当与具有狭窄可靶向驱动程序的队列相匹配时，横向共调控结构能产生卓越的判别能力，即使在仅 11% 阳性率的高度类别不平衡条件下也是如此。

生物学信息神经网络，图注意力，图变换器，Reactome，ssGSEA，乳腺癌，治疗反应预测，多标签分类，系统免疫学，可解释深度学习

††journalyear:2026††copyright:acmlicensed††conference:ICCA ’26; ;††booktitle:ACM-BCB ’26 研讨会伴随论文集††doi:10.1145/XXXXXXX.XXXXXXX††isbn:978-1-XXXX-XXXX-X/26/XX

## 1. 引言

癌症治疗方案制定是一个困难的临床问题，因为一个患者可能同时需要几种不同类型的决策。临床医生可能需要决定患者是否应接受靶向分子治疗，是否应使用放射治疗，以及患者是否可能存活超过短期临床窗口。这三个问题相互关联，但并非同一问题。靶向分子治疗旨在阻断癌症生长的特定分子驱动因素 (Min and Lee, 2022 (https://arxiv.org/html/2606.09898#bib.bib43))。放射治疗使用电离辐射损伤肿瘤细胞 (Baskar et al., 2012 (https://arxiv.org/html/2606.09898#bib.bib44))。短期生存预测通常用于支持肿瘤学中的风险分层和护理计划 (Parikh et al., 2019 (https://arxiv.org/html/2606.09898#bib.bib46); Sidey-Gibbons et al., 2022 (https://arxiv.org/html/2606.09898#bib.bib45))。因此，一个有用的模型应该将这些结局视为独立但相互关联的预测任务来学习，而不是将它们强行合并为一个单一标签。

基因表达数据可以帮助解决这个问题，因为它能捕获每个肿瘤样本中哪些基因是活跃的。然而，原始基因表达包含数千个基因，从如此大的输入中理解模型学到了什么可能很困难。一种更具可解释性的方法是将基因表达汇总为生物学通路。基因集富集分析被引入，用于将基因表达模式与已知的生物学过程联系起来 (Subramanian et al., 2005 (https://arxiv.org/html/2606.09898#bib.bib10))，而单样本 GSEA 则能够估计每个个体样本的通路活性 (Barbie et al., 2009 (https://arxiv.org/html/2606.09898#bib.bib9))。在本文中，我们使用 Reactome（一个精选的通路知识库）将每个患者转换为一个通路活性评分向量 (Gillespie et al., 2022 (https://arxiv.org/html/2606.09898#bib.bib8))。这种表示更容易与生物学联系起来，因为每个特征对应一个已知的通路，而不是一个孤立的基因。

我们将问题形式化为一个多标签预测任务。给定一个患者的 Reactome 通路活性谱，模型预测三个二元结局：靶向分子治疗 (TMT)、放射治疗 (RT) 以及至少 180 天的总体生存期 (OS≥≥180 d)。这种设置很重要，因为一个患者可能属于这些结局的任意组合。例如，一个患者可能接受靶向治疗但未接受放射治疗，而另一个患者可能既接受放射治疗又存活超过 180 天。通过使用三个输出头，模型可以学习哪些通路模式对每个临床问题最有用。

近期的工作表明，生物学知识可以直接构建到深度学习模型中 (Wysocka et al., 2023 (https://arxiv.org/html/2606.09898#bib.bib7); Zohari and Chehreghani, 2025 (https://arxiv.org/html/2606.09898#bib.bib36); Zhang et al., 2025 (https://arxiv.org/html/2606.09898#bib.bib37))。P-NET 使用通路结构为前列腺癌发现创建了一个神经网络 (Elmarakeby et al., 2021 (https://arxiv.org/html/2606.09898#bib.bib4))。BINN 通过使用生物信息网络连接来支持通路层面的解释，进一步发展了这一想法 (Hartman et al., 2023 (https://arxiv.org/html/2606.09898#bib.bib1); Li et al., 2025b (https://arxiv.org/html/2606.09898#bib.bib22))。GraphPath 将通路建模为图上的节点，并使用图注意力来学习通路之间的关系 (Ma and Wang, 2024 (https://arxiv.org/html/2606.09898#bib.bib2); Veličković et al., 2018 (https://arxiv.org/html/2606.09898#bib.bib11); Yan et al., 2024 (https://arxiv.org/html/2606.09898#bib.bib25); Dou and Mirzaei, 2025 (https://arxiv.org/html/2606.09898#bib.bib34); Li et al., 2025a (https://arxiv.org/html/2606.09898#bib.bib35); Jiang et al., 2024 (https://arxiv.org/html/2606.09898#bib.bib6); Lee et al., 2025 (https://arxiv.org/html/2606.09898#bib.bib23))。PATH 使用图变换器 (Dwivedi and Bresson, 2021 (https://arxiv.org/html/2606.09898#bib.bib12); Liu et al., 2024 (https://arxiv.org/html/2606.09898#bib.bib5); Zhang et al., 2022 (https://arxiv.org/html/2606.09898#bib.bib32)) 来表示通路间的相互作用，用于癌症预后 (Howlader et al., 2026 (https://arxiv.org/html/2606.09898#bib.bib3))。这些模型很有前景，但它们是不同的设置下开发和评估的。它们的数据集、标签、输入特征和评估任务各不相同，因此很难判断哪种架构总体上更好，或者每种架构是否针对不同的临床结局表现最佳。

在这项工作中，我们在一个通用流程下比较这些基于通路信息的模型。我们使用来自癌症基因组图谱 (TCGA) 的基因表达和临床数据，通过 UCSC Xena 平台获取 (Weinstein et al., 2013 (https://arxiv.org/html/2606.09898#bib.bib42); Goldman et al., 2020 (https://arxiv.org/html/2606.09898#bib.bib24))。我们研究了五种实体瘤队列：乳腺癌、肺癌、前列腺癌、头颈癌和甲状腺癌。对于每个队列，我们使用相同的预处理策略：基因表达被转换为 Reactome 通路活性评分，临床记录被转换为三个二元标签，并且所有模型都使用相同的多标签学习目标。这使得比较更加直接，因为模型之间的主要区别在于其架构，而非数据流程。

我们的目标不仅仅是报告哪个模型得分最高，还要理解每种生物学结构何时有帮助。BINN 将 Reactome 表示为稀疏的层次结构。GraphPath 将通路表示为基于注意力的图。PATH 使用变换器风格的图模型来表示通路间的相互作用。通过在同一任务上测试这些方法，我们提出了一个简单的问题：不同的基于通路的架构是否有助于不同的治疗和生存结局？这个问题很重要，因为不同癌症类型的标签分布是不同的。一个包含许多接受靶向治疗患者的队列，其表现可能不同于一个靶向治疗罕见的队列。因此，最佳模型可能取决于所预测的表型以及所研究的癌症队列。

本文的主要贡献如下：

*   我们构建了一个统一的 TCGA 基准测试，用于在五个实体瘤队列中基于通路预测 TMT、RT 和 OS≥≥6 m。
*   我们对每名患者使用相同的 Reactome 和 ssGSEA 通路表示，使得输入空间在队列和模型之间保持一致。
*   我们适配并比较了三种基于通路信息的深度学习架构：BINN、GraphPath 和 PATH。
*   我们表明模型性能具有表型特异性，这意味着最强的架构可能根据目标是治疗分配还是短期生存而改变。

## 2. 数据

### 2.1 数据整理

我们从 UCSC Xena 浏览器 (Goldman et al., 2020 (https://arxiv.org/html/2606.09898#bib.bib24)) 中整理了多样化的基因表达谱和临床表型数据，该浏览器是一个提供统一大规模癌症基因组数据集的开源平台。基于此资源，我们从癌症基因组图谱 (Weinstein et al., 2013 (https://arxiv.org/html/2606.09898#bib.bib42); The Cancer Genome Atlas Network, 2012 (https://arxiv.org/html/2606.09898#bib.bib15)) 中选择了五个实体瘤队列：乳腺癌、肺癌、前列腺癌、头颈癌和甲状腺癌。这些队列共同涵盖了生物学和临床上截然不同的肿瘤类型，为评估模型在不同癌症背景下的泛化能力提供了有代表性的基础。

### 2.2 任务形成

在这些队列的基础上，我们为每名患者定义了三个二元预测任务，以支持基于临床的评估。

**靶向分子治疗 (TMT)**。分类患者是否接受了选择性抑制肿瘤生长分子驱动因素的化合物（例如，分类乳腺癌患者是否接受了针对 HER2 的靶向化合物）(Min and Lee, 2022 (https://arxiv.org/html/2606.09898#bib.bib43))。

**放射治疗 (RT)**。识别患者是否接受了旨在对肿瘤细胞造成致命 DNA 损伤同时保护邻近健康组织的电离辐射治疗（例如，识别头颈癌患者是否在主要治疗过程中接受了放射治疗）(Baskar et al., 2012 (https://arxiv.org/html/2606.09898#bib.bib44))。

**总体生存期≥≥6 个月 (OS≥≥6 m)**。确定患者的生存期是否超过了临床确定的六个月阈值，作为短期预后的替代指标（例如，确定肺癌患者在诊断后是否至少存活了 180 天）(Sidey-Gibbons et al., 2022 (https://arxiv.org/html/2606.09898#bib.bib45); Parikh et al., 2019 (https://arxiv.org/html/2606.09898#bib.bib46))。我们将总体生存期形式化为一个二元任务（≥6≥6 个月 vs <6<6 个月），用于多任务设置中的短期预后分层。这不模拟删失或完整的时间-事件动态，因此结果反映的是短期风险分类，而非完整的生存分析。

### 2.3 预处理

我们使用 Reactome 数据库 (Gillespie et al., 2022 (https://arxiv.org/html/2606.09898#bib.bib8)) 将基因表达数据汇总为生物学通路，保留了 1,706 个精选通路。每个通路每个样本包含 10 到 1,000 个基因。为了量化每个保留通路内的生物学活性，随后通过单样本基因集富集分析 (ssGSEA) (Barbie et al., 2009 (https://arxiv.org/html/2606.09898#bib.bib9); Subramanian et al., 2005 (https://arxiv.org/html/2606.09898#bib.bib10)) 计算评分，并归一化至 [0,1][0,\\,1]。同时，我们系统地编码了与上述三个预测任务相对应的临床结局作为二元标签：TMT、RT 和 OS≥≥6 m。最后，使用癌症基因组图谱的患者标识符合并通路评分和结局标签，只保留用于下游分析的完整样本。

**表 1. 每个队列的样本数量及每项肿瘤表型任务在所有五个队列中的阳性率**

| 癌症类型 | n | TMT | RT | OS≥6m |
| --- | --- | --- | --- | --- |
| 乳腺癌 | 618 | 571 (92%) | 345 (56%) | 462 (75%) |
| 前列腺癌 | 496 | 54 (11%) | 61 (12%) | 480 (97%) |
| 头颈癌 | 429 | 150 (35%) | 274 (64%) | 395 (92%) |
| 甲状腺癌 | 109 | 7 ( 6%) | 61 (56%) | 108 (99%) |
| 肺癌 | 970 | 311 (32%) | 124 (13%) | 863 (89%) |
| **总计** | **2,622** | **1,093 (42%)** | **865 (33%)** | **2,308 (88%)** |

注意：TMT = 靶向分子治疗；RT = 放射治疗；OS = 总体生存期。

## 3. 模型

### 3.1 模型选择

我们评估了三种生物信息学深度学习架构：**BINN**、**GraphPath** 和 **PATH**。每种架构都编码了逐步丰富的通路结构概念，使我们能够探究结构先验对治疗反应预测的影响程度。所有其他实验条件在模型之间保持固定，因此任何性能差异都可以归因于架构选择。

所有三个模型接收每个 Reactome 匹配通路的标准化 ssGSEA 评分（总共 1,706 个通路），并通过一个多任务类别加权二元交叉熵目标进行端到端训练，该目标对应三个预测头：TMT、RT 和 OS≥≥6 m。这些架构仅在生物学知识的编码方式上有所不同。BINN 将其各层专门设计为遵循 Reactome 的父子关系。GraphPath 在此基础上，通过图注意力网络将通路进行横向以及层次性的连接。PATH 更进一步，使用连续的 Jaccard 相似度对边进行加权，并在图变换器中融入拉普拉斯位置编码和边条件注意力。

参见图注

**图 1. 所提出方法的流程图**

### 3.2 性能指标

我们使用五个互补的指标来评估所有基准任务的模型性能。

**AUROC** 衡量一个随机选择的正例被排在随机选择的负例之前的概率：

(1) AUROC=∫01TPR(FPR−1(t))dt\\text{AUROC}=\\int_{0}^{1}\\text{TPR}\\!\\left(\\text{FPR}^{-1}(t)\\right)dt

**AUPRC** 总结了精确率-召回率之间的权衡，在类别不平衡（这在癌症基因组数据集中很常见）情况下尤其具有信息量：

(2) AUPRC=∑k(Rk−Rk−1)Pk\\text{AUPRC}=\\sum_{k}\\left(R_{k}-R_{k-1}\\right)P_{k}

**F1 分数** 是精确率和召回率的加权调和平均值：

(3) F1=∑i=1c2wi⋅precisioni⋅recalli∑i=1cwi(precisioni+recalli)\\text{F1}=\\frac{\\sum_{i=1}^{c}2w_{i}\\cdot\\text{precision}_{i}\\cdot\\text{recall}_{i}}{\\sum_{i=1}^{c}w_{i}\\left(\\text{precision}_{i}+\\text{recall}_{i}\\right)}

**准确率** 衡量正确分类样本的比例：

(4) Accuracy=1N∑i=1N1[y^i=yi]\\text{Accuracy}=\\frac{1}{N}\\sum_{i=1}^{N}\\mathbf{1}\\!\\left[\\hat{y}_{i}=y_{i}\\right]

**混淆矩阵** 提供跨类别的预测完整分解，其中条目 CijC_{ij} 表示真实类别为 ii、被预测为类别 jj 的样本：

(5) C=(TPFNFPTN)C=\\begin{pmatrix}\\text{TP}&\\text{FN}\\\\ \\text{FP}&\\text{TN}\\end{pmatrix}

### 3.3 BINN - 稀疏 Reactome 层次结构

##### 架构概述。

BINN 通过在各层之间施加稀疏掩码线性连接，并在每个深度设置辅助分类头，将 Reactome 父子层次结构直接集成到网络中。这将

TRAPS: 基于通路信息分层的治疗反应分析

相似文章

从静态风险到动态轨迹：迈向世界模型启发的临床预测

KG-TRACE：一种用于抗菌药物耐药性预测中机制基础的神经符号框架

探测、融合与可信度：面向多模态癌症分析的基础模型表征系统评估

基于数字孪生模拟的治疗响应优化临床决策支持AI系统

TraceGraph：用于诊断和改进智能体轨迹的共享决策景观

提交意见反馈