KG-TRACE:一种用于抗菌药物耐药性预测中机制基础的神经符号框架

arXiv cs.LG 论文

摘要

KG-TRACE 是一个神经符号框架,它将 WHO 突变知识图谱与神经基因组模型相结合,用于抗菌药物耐药性预测,实现了高准确率,并引入了生物基础比率(BGR)指标,以确保与已建立的生物学知识保持一致。

arXiv:2606.26179v1 公告类型:新 摘要:虽然基于WGS的AMR预测已达到高准确率,但现有模型缺乏将神经归因与已建立的生物学路径进行基础的机制。我们提出了KG-TRACE,一种新颖的神经符号框架,它将WHO突变知识图谱(KG)作为结构化生物学约束集成到神经基因组模型中。与现有方法孤立学习统计模式不同,KG-TRACE通过一个学习的认知信任门融合基因组特征和基于RotatE的KG嵌入,动态地权衡神经证据与符号生物学知识。 在CRyPTIC结核分枝杆菌队列上评估,KG-TRACE对异烟肼的AUROC达到0.9760,实现了具有竞争力的准确率,但其主要价值在于符号基础,而非预测提升。更重要的是,我们引入了生物基础比率(BGR),这是一个数据集级别的指标,用于量化神经归因与已建立生物学之间的一致性。我们的框架实现了对异烟肼耐药预测的92.5%符号覆盖率,并通过为“不确定”案例发出实验室后续标志,有效识别了MDR共现伪影。我们证明了神经符号基础为临床医生提供了可验证的审计轨迹,弥合了预测准确性与临床信任之间的差距。
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:15

# KG-TRACE:面向抗菌药物耐药性预测机制性归因的神经符号框架
来源:https://arxiv.org/html/2606.26179
Naman Garg¹, Sarika Jain¹, Sourav Yadav², Bharat K\. Bhargava³, Ghanapriya Singh¹, Abhishek Srivastava⁴, Parimal Kar⁴ ¹印度国立理工学院库鲁克舍特拉分校 ²印度信息理工学院曼尼普尔分校 ³普渡大学 ⁴印度理工学院印多尔分校

###### 摘要

虽然基于WGS的AMR预测已达到高精度,但现有模型缺乏将神经归因与既定生物学通路相联系的机制。我们提出KG-TRACE,一种新颖的神经符号框架,将WHO突变知识图谱(KG)作为结构化生物学约束整合到神经基因组模型中。与孤立学习统计模式的现有方法不同,KG-TRACE通过一个学习到的认知可信门控,动态权衡神经证据与符号生物学知识,融合基因组特征和基于RotatE的KG嵌入。

在CRyPTIC结核分枝杆菌队列上评估,KG-TRACE对异烟肼的AUROC达到0.9760,实现了具有竞争力的准确性,而其核心价值在于符号归因,而非预测性能提升。更重要的是,我们引入了生物归因比(BGR),这是一个数据集层面的度量标准,用于量化神经归因与已知生物学之间的对齐程度。我们的框架在异烟肼耐药预测中实现了92.5%的符号覆盖率,并通过为“不确定”案例发出实验室随访标记,有效识别了MDR共现伪影。我们证明,神经符号归因为临床医生提供了可验证的审计轨迹,弥合了预测准确性与临床信任之间的差距。

## I. 引言

2021年,细菌AMR直接导致114万人死亡,并与另外471万例死亡相关;预计2025年至2050年间,死亡人数将超过3900万[1 (https://arxiv.org/html/2606.26179#bib.bib1)]。这些数字令人警醒,但从诊断角度来看,更迫在眉睫的问题更为简单且易于处理:确定一个分离株是否耐药需要多长时间?对于结核分枝杆菌,传统的基于培养的药敏试验需要两周或更长时间[3 (https://arxiv.org/html/2606.26179#bib.bib3)]。两周时间足以开始无效的治疗方案。原则上,WGS可以将这一时间压缩到几小时——对分离株进行测序,运行模型,在患者离开诊所前返回预测结果。

计算学界在这方面投入了巨大的努力。线性模型[10 (https://arxiv.org/html/2606.26179#bib.bib10)]、随机森林[12 (https://arxiv.org/html/2606.26179#bib.bib12)]、梯度提升树[13 (https://arxiv.org/html/2606.26179#bib.bib13)]、一维卷积网络[16 (https://arxiv.org/html/2606.26179#bib.bib16)]以及专用架构如DeepAMR[14 (https://arxiv.org/html/2606.26179#bib.bib14)]和TB-DROP框架[15 (https://arxiv.org/html/2606.26179#bib.bib15)]都将基于WGS数据的AMR预测精度提升到了单看数字已接近临床级别的程度。但仍有两大差距,对于这些数字能否转化为更安全的临床决策至关重要。

首先,当前几乎所有方法都是孤立地处理每个分离株。它们将突变向量视为原始特征空间并从中学习,而没有利用WHO突变目录或CARD数据库等资源中编码的数十年分子微生物学知识。对于具有清晰、特征明确的耐药突变的分离株,这个问题不大;但对于那些特征模糊或稀疏的分离株,问题就严重得多,因为模型除了统计模式之外别无他法。

第二个差距是每个样本的机制性归因。当模型预测耐药时,临床医生的自然问题是:是哪个基因、哪个突变,以及这是已知的因果机制还是巧合的共现?如果一个模型正确预测了耐药,但原因是某个药物通路突变恰好与MDR背景标记共现,那么这是“正确的原因,错误的结果”,在临床记录中这是真正的风险。SHAP归因部分回答了这个问题,但它们本身无法区分因果驱动因素和统计伪影。

知识图谱在相邻领域已被证明是有用的——如药物重定位[22 (https://arxiv.org/html/2606.26179#bib.bib22)]、癌症靶点识别[23 (https://arxiv.org/html/2606.26179#bib.bib23)]、网络安全[30 (https://arxiv.org/html/2606.26179#bib.bib30)]和心理健康评估[31 (https://arxiv.org/html/2606.26179#bib.bib31)]——而将其用于AMR预测的理由本质上相同:结构化生物学知识是纯ML方法所丢弃的。简单地将KG嵌入与基因组特征拼接已被尝试过,但仅带来微小提升,且缺乏样本级别的自适应性。我们希望获得一种能够根据面前证据变化其依赖于符号层程度的东西。

KG-TRACE(用于可追溯AMR的KG融合)通过一个学习到的交叉注意力门控将这两个组成部分结合在一起。其主要目标是从WGS数据进行准确、临床可行的AMR预测,并带有归因机制,将每个预测与特定突变和WHO编录的耐药通路联系起来。两个具体贡献是:

1. 用于基因组-KG融合的神经符号注意力门控。受门控多模态融合[24 (https://arxiv.org/html/2606.26179#bib.bib24),25 (https://arxiv.org/html/2606.26179#bib.bib25)]的启发,该门控在样本级别动态分配神经(基因组)和符号(KG)组件之间的信任度。它对耐药和敏感分离株的行为不同,而KG分支充当生物调节器,惩罚依赖缺乏因果关系路径的特征。
2. 具有定义信任层次的双层机制性归因。一个双层机制性归因协议,当神经证据缺乏编录的生物学路径时,它会发出不确定性标记。当高SHAP突变在KG中没有到药物的编录路径时,系统将此两个层级之间的分歧标记为不确定,而不是报告为已验证。生物归因比(BGR)给出了神经归因与符号知识库对齐程度的数据集级度量。

为了具体说明问题:图1 (https://arxiv.org/html/2606.26179#S1.F1)显示了KG-TRACE为来自CRyPTIC数据集的分离株SAMN07236525(一个表型INH耐药的结核分枝杆菌样本)生成的临床决策支持笔记。模型返回的置信度为p≈0.94p≈0.94,但更有用的是,它列出了驱动预测的突变,针对WHO知识图谱逐一检查,并报告因果链是否已验证。预测是可追溯的。这就是我们所说的机制性归因。

虽然当前用于AMR的深度学习模型主要关注最大化AUROC,但KG-TRACE优先考虑临床可操作的可解释性,确保每个高置信度预测都有WHO编录的因果链支持。

**KG-TRACE 临床决策支持笔记**
**分离株:** SAMN07236525
**药物:** 异烟肼 (INH)
**日期:** CRyPTIC 测试
**输入**
突变向量:x∈{0,1}17,352x∈{0,1}17,352
WHO 目录特征
KG 嵌入: 针对26个耐药基因的64维生物学上下文向量
**预测**
**耐药**
**置信度:** p≈0.94`p≈0.94`
**门控α=0.337**α=0.337**(KG-主导;敏感基线:0.336)**
**层级1(主要信任):** SHAP 突变归因✓= KG-验证的因果驱动因素
**层级2(符号验证):** 机制性 KG 追溯
katG⏟基因has_mutation‾‾‾‾‾‾katG:S315T⏟突变confers_R‾‾‾‾‾‾‾‾‾异烟肼⏟药物
**可行动性评分:** 高(SHAP 前 1 位由 KG 追溯验证)
**WHO 证据等级与行动**
**WHO 证据:** `katG:S315T` 的等级 1 已在 KG 中确认。
未提出不确定机制标记。
*此临床决策支持笔记引用了KG中特定的WHO证据等级,为既定文献提供了即时参考。*

*图 1:分离株 SAMN07236525 的 KG-TRACE 临床决策支持笔记。∣∣需要采取行动前进行临床审查。*

第 II 节 (https://arxiv.org/html/2606.26179#S2) 回顾相关工作。第 III 节 (https://arxiv.org/html/2606.26179#S3) 介绍数据、KG 构建、模型架构和归因方法。第 IV 节 (https://arxiv.org/html/2606.26179#S4) 详细说明实验设置,第 V 节 (https://arxiv.org/html/2606.26179#S5) 展示并解释结果。第 VI 节 (https://arxiv.org/html/2606.26179#S6) 和第 VII 节 (https://arxiv.org/html/2606.26179#S7) 讨论局限性和结论。

## II. 背景与相关工作

### II-A AMR 预测的经典方法与集成方法

最早的计算工具——Mykrobe[3 (https://arxiv.org/html/2606.26179#bib.bib3)] 和 KvarQ[4 (https://arxiv.org/html/2606.26179#bib.bib4)]——通过将观察到的突变与精选的耐药目录进行匹配来工作。ResFinder[5 (https://arxiv.org/html/2606.26179#bib.bib5)] 和 AMRFinder Plus[6 (https://arxiv.org/html/2606.26179#bib.bib6)] 将其扩展到广谱基因组筛查。基于目录的工具快速且透明,但它们无法处理尚未编录的变异;基因组监测不断揭示的新型耐药机制的长尾正是它们所遗漏的。

统计机器学习填补了这一空白。Yang 等人训练了支持向量机、逻辑回归和随机森林分类器,使用了来自 1839 个英国结核分枝杆菌分离株的 WGS 数据,表明对于常用测试药物,学习模型可以匹配甚至超越目录规则[10 (https://arxiv.org/html/2606.26179#bib.bib10)]。Moradigaravand 等人将l1ℓ1-惩罚回归应用于大肠杆菌泛基因组向量,AUROC 超过 0.96[11 (https://arxiv.org/html/2606.26179#bib.bib11)]。Drouin 等人结合了集合覆盖机和梯度提升树,并在获得竞争性能的同时生成了简短、人类可读的规则集[13 (https://arxiv.org/html/2606.26179#bib.bib13)]。

集成方法的结构性天花板是:它们逐个基因组进行工作,没有机制来整合 WHO 或 CARD 中有组织的生物学知识。这对于具有稀疏或模糊突变谱的分离株最为重要,而正是在这些情况下,共现伪影最为危险。

### II-B 深度学习方法

**自编码器与卷积架构。** Yang 等人提出了 DeepAMR,一个堆叠去噪自编码器,在学习紧凑的突变谱表示的同时,预测多种一线抗结核药物的耐药性[14 (https://arxiv.org/html/2606.26179#bib.bib14)]。Kuang 等人训练了一个一维卷积网络,使用来自 16 个国家的 10,575 个结核分枝杆菌分离株,对异烟肼报告了 95.9-97.2% 的 F1 分数[16 (https://arxiv.org/html/2606.26179#bib.bib16)]。Stokes 等人使用消息传递神经网络筛选具有抗生素活性的化合物,从 ZINC15 数据库的超过 1.07 亿个分子文库中识别出 halicin[19 (https://arxiv.org/html/2606.26179#bib.bib19)]。

**图基方法与多架构方法。** Yang 等人构建了 HGAT-AMR,一个异构图注意力网络,将结核分枝杆菌基因组数据编码为区分编码区和基因间序列的图[18 (https://arxiv.org/html/2606.26179#bib.bib18)]。Wang 等人在 TB-DROP 框架中对 CNN、去噪自编码器和 Wide&Deep 架构进行了基准测试[15 (https://arxiv.org/html/2606.26179#bib.bib15)]。Green 等人在 18 个位点和 13 种抗生素上训练了一个多药物 CNN;显著性图识别出 18 个先前不在目录中的耐药相关位点[17 (https://arxiv.org/html/2606.26179#bib.bib17)]。

仍然存在两个结构性差距。基于图的方法从其自身的基因组数据构建图;它们没有引入来自 WHO 或 CARD 数据库的外部 {基因, 突变, 药物} 三元组。此外,虽然显著性图和 SHAP 提供了特征级别的洞察,但没有现有的深度 AMR 框架形式化了神经符号约束,使得符号知识库充当神经归因的验证器。KG-TRACE 解决了这两个问题。

### II-C 生物医学中的知识图谱

KG 嵌入方法如 TransE、RotatE 和 ComplEx 学习保留图中结构邻近性的密集实体和关系表示[20 (https://arxiv.org/html/2606.26179#bib.bib20)]。在生物医学环境中,这些嵌入已应用于药物-靶标相互作用预测、疾病共病建模和多药副作用表征[22 (https://arxiv.org/html/2606.26179#bib.bib22)]。RotatE 将每种关系类型建模为复空间中的旋转,这使其适用于关系语义变化广泛的生物学知识图谱。这些嵌入同时携带幅度和相位信息:幅度捕捉实体显著性,相位编码诸如对称性和反转性等关系属性。这影响了我们对 RotatE 的选择以及第 III 节 (https://arxiv.org/html/2606.26179#S3) 中讨论的下游设计决策。

### II-D AMR 模型的可解释性与机制性归因

SHAP[26 (https://arxiv.org/html/2606.26179#bib.bib26)] 提供了基于合作博弈论的加性、模型无关的特征归因。当应用于铜绿假单胞菌 AMR 模型时,它恢复了与分子诊断一致的耐药相关 SNP[27 (https://arxiv.org/html/2606.26179#bib.bib27)]。推动我们工作的局限性也是 SHAP 本身无法解决的:它无法区分导致耐药的突变和仅仅在 MDR 背景下与之共现的突变。这种区分需要 KG-TRACE 添加的符号层。

## III. KG-TRACE:神经符号机制性归因

### III-A 知识图谱构建与嵌入

#### III-A1 MTB 知识图谱

MTB 知识图谱是使用从 WHO 突变目录[8 (https://arxiv.org/html/2606.26179#bib.bib8),9 (https://arxiv.org/html/2606.26179#bib.bib9)] 中提取的关系三元组构建的,丢弃了未注释的同义变异。这产生了 60,017 个唯一三元组,涵盖 25,095 个实体和六种关系类型(例如,`has_mutation`, `confers_resistance_to`)。节点实体包括目标基因、不同突变、药物和耐药机制(图 2 (https://arxiv.org/html/2606.26179#S3.F2))。

*图 2:MTB 知识图谱模式。符号组件编码了从 WHO 目录中提取的 60,017 个三元组和 25,095 个实体。高亮路径(橙色)对应于层级 2 的符号验证追溯,说明了神经 SHAP 归因如何通过知识图谱建立在既定的临床证据之上。*

#### III-A2 嵌入

KG 嵌入使用 PyKEEN[21 (https://arxiv.org/html/2606.26179#bib.bib21)] 中实现的 RotatE[20 (https://arxiv.org/html/2606.26179#bib.bib20)] 进行训练:嵌入维度 d=64,批次大小 512,最多 300 个epoch,并在 Hits@10 上早停(耐心值 20;最佳检查点在第 50 个epoch,训练时间 ≈15 分钟)。训练遵循随

相似文章

TRAPS: 基于通路信息分层的治疗反应分析

arXiv cs.LG

本文提出了首个用于通路引导的治疗反应建模的统一基准,评估了三种生物学信息驱动的架构(BINN、GraphPath、PATH),在来自癌症基因组图谱的五个癌症队列上,对靶向治疗、放射治疗和生存结局进行多标签预测。