GraphDiffMed: 知识约束的差异化注意力结合药理学图先验用于药物推荐

arXiv cs.LG 论文

摘要

GraphDiffMed是一个药物推荐框架,它使用双尺度差异化注意力和药理学图先验来提高在EHR数据上的推荐质量和安全性。在MIMIC-III上的实验显示出相对于基线的持续改进。

arXiv:2605.20188v1 Announce Type: new 摘要:从电子健康记录(EHR)中推荐安全有效的药物组合是一个核心的临床AI问题,但由于患者轨迹长、噪声大且临床异质性高,这一问题仍然困难。现有方法通常擅长于跨就诊的时间建模或药理学知识整合(例如药物-药物相互作用,DDI),但很少能同时做到这两点并鲁棒地抑制噪声。我们提出GraphDiffMed,一个基于双尺度差异化注意力v2的知识约束药物推荐框架。差异化注意力在就诊内和就诊间两个层面应用,以过滤就诊内和纵向历史中的虚假信号,同时在学习过程中融入药理学约束。在MIMIC-III上的实验和消融研究表明,这种设计在强基线上持续提高了推荐质量和排序,同时实现了更有利的安全性能平衡。我们进一步发现,在我们的实验设置下,性能最强的配置仅使用了人口统计辅助特征。总体而言,GraphDiffMed证明了将噪声感知注意力与药理学约束相结合能够产生更可靠且更具临床意义的药物推荐。我们在https://github.com/saxenakrati09/GraphDiffMed开源了代码。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:20

# GraphDiffMed:基于药理图先验的知识约束微分注意力在用药推荐中的应用
来源:https://arxiv.org/html/2605.20188
11institutetext:九州工业大学, 北九州市, 福冈, 日本
11email:saxena\.krati536@mail\.kyutech\.jp, tom@brain\.kyutech\.ac\.jp

###### 摘要

从电子健康记录(EHR)中推荐安全有效的药物组合是临床AI的核心问题,但由于患者轨迹长、噪声大且临床异质性强,这一问题仍然困难。现有方法通常擅长跨就诊的时间建模或药理知识整合(例如药物相互作用,DDI),但很少能在鲁棒抑制噪声的同时实现这两点。我们提出了GraphDiffMed,一个基于双尺度微分注意力v2的知识约束用药推荐框架。在就诊内和就诊间两个层面应用微分注意力,以过滤就诊内和纵向历史中的虚假信号,同时在学习过程中融入药理约束。在MIMIC-III上的实验和消融研究表明,该设计在强基线上持续提高了推荐质量和排序,同时实现了更有利的安全性能平衡。我们进一步发现,在我们的实验设置下,表现最佳的配置仅使用人口统计学辅助特征。总体而言,GraphDiffMed表明,将噪声感知注意力与药理约束相结合,能够产生更可靠且更具临床意义的用药推荐。我们开源了代码:https://github.com/saxenakrati09/GraphDiffMed。

## 1 引言

用药推荐是临床决策支持中的核心任务。其目标是通过纵向电子健康记录(EHR),包括诊断、手术、实验室检查结果和既往处方,为当前就诊推荐一组合适的药物,同时控制有害药物相互作用(DDI)的风险。该任务在临床上非常重要,因为现代护理常涉及多药治疗,临床医生必须在时间压力、信息不完整和患者状况变化的情况下做出决策。因此,用药推荐已成为医疗AI的标准基准,拥有成熟的数据集、广泛采用的评估协议和众多竞争方法。

尽管已相当成熟,该问题在技术上仍然困难。EHR数据稀疏且充满噪声,缺失值和记录不一致会产生虚假模式。治疗效果随时间展开,因此模型必须同时捕捉就诊内的局部信号和跨就诊的长期依赖关系。输出空间是组合性的,因为多种药物是联合开出的,且由于相互作用风险,安全性不能与有效性分离。同时,在结构化资源(如DDI图和分子关系)中存在大量药理知识,但如何将其与数据驱动的时间建模有效整合仍然是一个开放挑战。

现有方法提供了部分解决方案。图/知识驱动方法[11 (https://arxiv.org/html/2605.20188#bib.bib31),7 (https://arxiv.org/html/2605.20188#bib.bib6),6 (https://arxiv.org/html/2605.20188#bib.bib4)]整合了药物相互作用和/或分子结构信号,但仍可能继承观察性EHR数据的偏差。序列化和分层EHR模型[2 (https://arxiv.org/html/2605.20188#bib.bib32),19 (https://arxiv.org/html/2605.20188#bib.bib21),9 (https://arxiv.org/html/2605.20188#bib.bib12),14 (https://arxiv.org/html/2605.20188#bib.bib15)]捕捉纵向就诊动态(有时借助患者相似性/注意力),但通常不显式注入结构化药理知识。混合/多模态方法[15 (https://arxiv.org/html/2605.20188#bib.bib10),1 (https://arxiv.org/html/2605.20188#bib.bib25),3 (https://arxiv.org/html/2605.20188#bib.bib2)]融合多种信息源以提高推荐质量,但其注意力往往很大程度上由数据驱动,而非受药理约束。与此同时,LLM蒸馏方法[8 (https://arxiv.org/html/2605.20188#bib.bib5)]通过提示提取临床语义并将其蒸馏到较小的推荐器中,提供了超越显式药理图的另一种外部知识途径。

传统的注意力机制通常优化预测拟合,但不能可靠地将噪声共现模式与有临床意义的多药信号区分开,可能过度惩罚在复杂病例中有临床依据的药物组合。为了解决这种质量-安全性矛盾,我们提出了GraphDiffMed,一个基于双尺度微分注意力v2(DiffAttn_v2)的知识约束框架。DiffAttn_v2同时应用于就诊内和就诊间层面,药理约束作为完整训练框架的一部分被纳入。

我们的贡献如下:

- •我们首次将双尺度微分注意力v2应用于用药推荐。
- •我们分析了在不同模态设置下,知识约束如何影响安全-性能平衡。
- •我们通过研究问题(RQ)结构化的消融,透明地分解了增益的来源。
- •我们提供了观察到的DDI概况的临床解释,表明与保守基线相比,略高的绝对DDI率可能反映了对复杂多药病例更完整的推荐。

本文其余部分组织如下。第2节 (https://arxiv.org/html/2605.20188#S2)回顾了用药推荐、注意力机制和知识整合的相关工作。第3节 (https://arxiv.org/html/2605.20188#S3)介绍了GraphDiffMed架构。第4节 (https://arxiv.org/html/2605.20188#S4)描述了数据集、设置和评估指标。第5节 (https://arxiv.org/html/2605.20188#S5)报告了主要结果和消融研究。第6节 (https://arxiv.org/html/2605.20188#S6)讨论了临床意义、局限性和结论。

## 2 相关工作

**用药推荐模型**。深度学习方法在时间建模和结构建模方面稳步提高了用药推荐的效果。早期序列模型如RETAIN[2 (https://arxiv.org/html/2605.20188#bib.bib32)]引入了用于临床序列的可解释RNN注意力,LEAP[19 (https://arxiv.org/html/2605.20188#bib.bib21)]将处方制定视为序列决策过程。为了建模复杂交互,基于图的方法包括GAMENet[11 (https://arxiv.org/html/2605.20188#bib.bib31)]和SafeDrug[7 (https://arxiv.org/html/2605.20188#bib.bib6)]整合了外部知识,明确表示药物相互作用(DDI)网络和分子结构。后来的架构更加多样化:SHAPE[9 (https://arxiv.org/html/2605.20188#bib.bib12)]、DAPSNet[14 (https://arxiv.org/html/2605.20188#bib.bib15)]和A-GSTCN[18 (https://arxiv.org/html/2605.20188#bib.bib16)]强化了分层时间学习和患者相似性;CIDGMed[6 (https://arxiv.org/html/2605.20188#bib.bib4)]使用因果推断纠正历史偏差;多模态模型如PROMISE[15 (https://arxiv.org/html/2605.20188#bib.bib10)]和MIFNet[3 (https://arxiv.org/html/2605.20188#bib.bib2)]融合了异质EHR模态。最近,LEADER[8 (https://arxiv.org/html/2605.20188#bib.bib5)]探索了从大型语言模型中蒸馏临床语义。尽管有很强的实证结果,大多数方法仍然依赖于很大程度上数据驱动的时间和结构注意力,甚至知识感知模型也往往较弱地执行经过验证的药理规则。

**注意力机制与微分注意力**。这一局限性促使我们更仔细地审视注意力设计本身。在医疗建模中,标准范式——自注意力、交叉注意力和多头注意力[13 (https://arxiv.org/html/2605.20188#bib.bib28)]——被广泛用于强调相关患者历史。然而,这些无约束机制常常过拟合噪声和EHR中机构特定的联合处方伪影。为了提高鲁棒性,微分注意力[17 (https://arxiv.org/html/2605.20188#bib.bib34)]引入了减法噪声消除。微分Transformer v2[16 (https://arxiv.org/html/2605.20188#bib.bib26)]通过使用sigmoid约束的λ\\lambda进行查询依赖的逐token门控,从而进行细粒度抑制。尽管是为自然语言和视觉开发的,微分注意力如今正进入临床建模。最近,DADA-MED[10 (https://arxiv.org/html/2605.20188#bib.bib30)]添加了实验室事件,并在就诊内层面应用了基础微分注意力。然而,原始微分注意力仍然对外部药理结构无知,这使其在罕见药物组合中容易学到临床不安全的关联。

**知识图谱集成与DDI建模**。这一剩余差距指向了明确的药理基础。整合外部药理知识是提高推荐安全性的标准方法。诸如DrugBank[5 (https://arxiv.org/html/2605.20188#bib.bib35)]和TWOSIDES[12 (https://arxiv.org/html/2605.20188#bib.bib36)]等数据库通常通过嵌入预训练、图神经网络(GNN)消息传递或结构注意力偏置来使用。为了减少不良事件,最先进的模型(例如GAMENet[11 (https://arxiv.org/html/2605.20188#bib.bib31)]、PROMISE[15 (https://arxiv.org/html/2605.20188#bib.bib10)]和REFINE[1 (https://arxiv.org/html/2605.20188#bib.bib25)])通常将DDI减少视为正则化,通过添加后验损失惩罚。这种以惩罚为中心的设计造成了临床上的紧张关系:在广泛的DDI最小化与保留治疗上必要且密切监测的多药治疗之间进行权衡。GraphDiffMed通过一个双尺度微分注意力骨干和药理约束来解决这一更广泛的差距。

## 3 方法论

### 3.1 问题定义

设患者的临床历史表示为一系列就诊:P={V1,V2,...,VT−1}\\mathcal{P}=\\\{V\_\{1\},V\_\{2\},...,V\_\{T-1\}\\\},其中VtV\_\{t\}表示第tt次就诊。每次就诊VtV\_\{t\}包含:

- •DtD\_\{t\}:诊断集(ICD代码)
- •PtP\_\{t\}:手术集(CPT/ICD-9手术代码)
- •MtM\_\{t\}:处方药物集
- •LtL\_\{t\}:实验室事件集(检验ID、数值对)
- •GtG\_\{t\}:患者性别(二值)
- •AtA\_\{t\}:就诊t时的患者年龄

给定截至时间T的患者就诊,用药推荐任务预测就诊T的药物集合MTM\_\{T\}。遵循先前工作中的标准基准实践,模型使用从就诊1到T的非药物模态(默认设置中的诊断/手术,以及额外模态实验中的可选人口统计学/实验室事件),而药物输入仅限于就诊1到T-1。因此,MTM\_\{T\}从不作为输入,且不使用T之后的就诊。

### 3.2 GraphDiffMed 架构概览

GraphDiffMed遵循从表示学习到临床知情预测的分阶段流水线。首先,多模态嵌入层将诊断、手术、药物、实验室事件和人口统计学信号编码到共享潜在空间中。对于就诊内推理,每种模态通过图处理后的实体嵌入求和表示为一个单就诊级向量,然后图偏置微分交叉注意力计算池化药物向量(查询)与池化诊断/手术向量(键/值)之间的1×\\times1注意力,从而有效学习将临床上下文门控投影到药物表示空间中。然后,就诊间编码捕捉跨历史就诊的纵向依赖关系。在就诊间注意力中,有效图偏置作为投影到药物token位置的访问集先验注入。最后,聚合的患者表示被传递到药物预测头,随后是一个因果回顾模块,该模块使用诊断-药物和手术-药物因果效应调整分数。概览如图1 (https://arxiv.org/html/2605.20188#S3.F1)所示。

**多模态嵌入层**。该组件遵循先前设计,并进行了显式源分离的调整。诊断、手术、药物、实验室事件和人口统计学信号的模态处理流水线采用自DADA-MED[10 (https://arxiv.org/html/2605.20188#bib.bib30)]:诊断/手术/药物代码映射为可学习嵌入(De,Pe,Me\\mathbf\{D\}\_\{e\},\\mathbf\{P\}\_\{e\},\\mathbf\{M\}\_\{e\}),实验室事件从标准化(检验ID,数值)对编码为Le=ReLU(Wlab[IDnorm,valuenorm])\\mathbf\{L\}\_\{e\}=\\mathrm\{ReLU\}(\\mathbf\{W\}\_{\\\text\{lab\}\}\[\\mathrm\{ID\}\_{\\\text\{norm\}\},\\mathrm\{value\}\_{\\\text\{norm\}\}\])并在每次就诊内聚合,人口统计学由性别嵌入和线性年龄投影(Ge,Ae\\mathbf\{G\}\_\{e\},\\mathbf\{A\}\_\{e\})表示。

参见图注:图1:GraphDiffMed概览。我们使用CIDGMed流水线[6 (https://arxiv.org/html/2605.20188#bib.bib4)]进行多模态表示学习,该流水线联合建模诊断、手术和药物,用于就诊级推荐(图1 (https://arxiv.org/html/2605.20188#S3.F1)中第二个顶部的框改编自CIDGMed)。对于药物表示,我们借鉴了CIDGMed的细粒度分子分支,该分支将每种药物映射到分子结构,对分子节点执行GIN风格的消息传递,并通过可学习的药物-分子关系矩阵将分子信息聚合到药物嵌入中。在CIDGMed中,该药物分支并非孤立使用:诊断和手术也分别嵌入,并通过因果效应矩阵连接到药物,之后双粒度表示学习整合诊断、手术和药物信息用于就诊级推荐。

**图偏置微分注意力**。我们提出的方法GraphDiffMed建立在DiffAttn_v2[16 (https://arxiv.org/html/2605.20188#bib.bib26)]之上,并将药理结构直接注入注意力形成过程。令X\\mathbf\{X\}为查询侧输入,Y\\mathbf\{Y\}为键-值输入。遵循DiffAttn_v2,查询被投影到双倍头空间(用于配对头),即Q=WQX\\mathbf\{Q\}=\\mathbf\{W\}\_\{Q\}\\mathbf\{X\},具有2H2H个头,而键/值分别为K=WKY\\mathbf\{K\}=\\mathbf\{W\}\_\{K\}\\mathbf\{Y\}和V=WVY\\mathbf\{V\}=\\mathbf\{W\}\_\{V\}\\mathbf\{Y\},具有HH个头,这些头被重复交织以对齐2H2H个查询头。经重塑后,注意力logits为

S=QKTdh+λgraphBgraph,A=softmax(S),C=AV,\\mathbf\{S\}=\\frac\{\\mathbf\{Q\}\\mathbf\{K\}^\{T\}\}\{\\sqrt\{d\_\{h\}\}\}+\\lambda\_\{\\\text\{graph\}\}\\mathbf\{B\}\_{\\\text\{graph\}\},\\qquad\\mathbf\{A\}=\\mathrm\{softmax\}(\\mathbf\{S\}),\\qquad\\mathbf\{C\}=\\mathbf\{A\}\\mathbf\{V\},

其中dhd\_\{h\}是每头维度,λgraph\\lambda\_\{\\\text\{graph\}\}是固定缩放超参数,Bgraph\\mathbf\{B\}\_{\\\text\{graph\}\}是DDI导出的偏置项。上下文张量C\\mathbf\{C\}具有2H2H个头,并分割为偶/奇头对:

C1=C[:,0::2,:,:],C2=C[:,1::2,:,:].\\mathbf\{C\}\_\{1\}=\\mathbf\{C\}\[:,0::2,:,:\],\\qquad\\mathbf\{C\}\_\{2\}=\\mathbf\{C\}\[:,1::2,:,:\]。

相似文章

图数据中差异化网络效应的处理效应估计

arXiv cs.LG

本文通过建模差异化网络效应解决了从图数据中估计个体处理效应的挑战,提出了一种包含部分注意力和信息放大器的机制,以捕捉邻居的不同重要性和规模。实验表明,该方法性能优于现有方法。