SafeRx-Agent：一个基于知识的多智能体框架，用于安全且可解释的药物推荐

arXiv cs.CL 2026/05/29 04:00 论文
medication-recommendation multi-agent knowledge-grounded safety explainability llm clinical-nlp
摘要
介绍了SafeRx-Agent，一种基于知识的多智能体框架，用于安全且可解释的药物推荐，可生成细粒度的ATC代码预测，同时控制药物相互作用和禁忌症，在MIMIC-III和MIMIC-IV数据集上进行了评估。
arXiv:2605.29146v1 Announce Type: new Abstract: 药物推荐预测患者就诊时的用药方案，但现有方法仍面临两个关键挑战。在模型层面，传统药物推荐方法仅预测结构化的药物代码，证据基础有限，而LLM智能体可以利用更丰富的临床背景，但可能缺乏安全验证和可追溯性。在任务层面，现有基准通常使用宽泛的药物类别，忽略亚组级别的安全差异，可能导致风险高估。我们引入了第一个基于四级ATC代码生成的细粒度药物推荐设置。我们提出了安全处方智能体（SafeRx-Agent），一种基于知识的多智能体框架，利用患者背景、外部临床知识和安全验证来推荐可追溯的药物集合。在MIMIC-III和MIMIC-IV数据集上的实验结果表明，SafeRx-Agent在控制药物相互作用、禁忌症和药物集合大小的同时，提高了细粒度药物预测的准确性。
查看原文
查看缓存全文
缓存时间: 2026/05/29 09:15
# SafeRx-Agent：一种基于知识的多智能体框架，用于安全且可解释的药物推荐
来源：https://arxiv.org/html/2605.29146

王新宇¹¹，吴汉伟²²¹¹，邰正涵³³¹¹，吕思成²，陆庆成⁵，赵子宇¹，季吉纯³⁴，田静茹¹，常晓文¹，宋子阳⁶
¹麦吉尔大学 ²麦克马斯特大学 ³多伦多大学 ⁴字节跳动 ⁵领英 ⁶俄亥俄大学

###### 摘要

药物推荐旨在预测患者就诊时的用药方案，但现有方法仍面临两大关键挑战。在模型层面，传统药物推荐方法仅预测结构化的药物代码，缺乏足够的证据基础，而大语言模型（LLM）智能体虽能利用更丰富的临床上下文，但可能缺乏安全性验证和可追溯性。在任务层面，现有基准通常使用宽泛的药物类别，忽略了子组级别的安全性差异，可能导致风险高估。我们首次提出了基于四级ATC代码生成的细粒度药物推荐设定。我们提出了**安全处方智能体（SafeRx-Agent）**，一种基于知识的多智能体框架，利用患者上下文、外部临床知识和安全性验证来推荐可追溯的药物集合。在MIMIC-III和MIMIC-IV数据集上的实验结果表明，SafeRx-Agent在控制药物相互作用、禁忌症和药物集合规模的同时，提升了细粒度药物预测的准确性。

SafeRx-Agent：一种基于知识的多智能体框架，用于安全且可解释的药物推荐

## 1 引言

基于电子健康记录（EHR）的药物推荐是一项高风险临床自然语言处理（NLP）任务（Xu等人，2022 (https://arxiv.org/html/2605.29146#bib.bib39)）。给定患者的纵向临床上下文，包括既往就诊、诊断、手术和用药史，模型需预测当前就诊的用药方案。该任务具有挑战性，因为ICU病史稀疏，就诊涉及多种活动性病症，且处方决策同时取决于急性疾病和治疗连续性（Shang等人，2019 (https://arxiv.org/html/2605.29146#bib.bib20)）。深度学习方法通过建模就诊序列和药物共现来推进药物预测（Ali等人，2023 (https://arxiv.org/html/2605.29146#bib.bib19)），但这些方法基于结构化EHR代码，无法在推理时利用患者特定的文本上下文或外部医学证据（Shang等人，2019 (https://arxiv.org/html/2605.29146#bib.bib20)；Yang等人，2021 (https://arxiv.org/html/2605.29146#bib.bib21)）。大语言模型（LLM）能够处理临床文本并生成药物集合，多智能体系统则进一步将复杂的临床推理分解为协调的步骤并利用工具（Liu等人，2025 (https://arxiv.org/html/2605.29146#bib.bib8)；Fan等人，2026 (https://arxiv.org/html/2605.29146#bib.bib33)；Li等人，2024 (https://arxiv.org/html/2605.29146#bib.bib41)）。然而，未加约束的LLM智能体在临床决策支持中仍不可靠：先前研究已报告幻觉、指南偏离以及不安全的推荐（Hager等人，2024 (https://arxiv.org/html/2605.29146#bib.bib29)；Asgari等人，2025 (https://arxiv.org/html/2605.29146#bib.bib30)；Farrag等人，2026 (https://arxiv.org/html/2605.29146#bib.bib31)）。因此，安全的药物推荐需要一个基于知识、具备明确证据和安全性验证的智能体框架。

药物使用解剖学治疗化学分类（ATC）体系进行标准化（WHOCC，2026 (https://arxiv.org/html/2605.29146#bib.bib40)），该体系将药物组织成五个层级。大多数基准预测ATC分类的第三级（记为ATC-L3），这会合并临床用途和安全性特征可能不同的药物子组（Ali等人，2023 (https://arxiv.org/html/2605.29146#bib.bib19)）。这扭曲了安全性评估：一种药物相互作用可能仅适用于一个细粒度子组，而不适用于同一ATC-L3父级下的另一个子组，导致ATC-L3评估高估风险。因此，准确的安全性测量需要在更细粒度上预测药物代码。

我们提出了**安全处方智能体（SafeRx-Agent）**，一种基于知识的多智能体框架，用于安全且可解释的细粒度药物推荐。SafeRx-Agent将每个患者病例分发给专科感知的药物智能体，这些智能体基于患者上下文、ICD和ATC分类体系以及药物适应症证据生成细粒度ATC-L4药物候选。随后，一个安全感知的评审-修订循环根据药物相互作用（DDI）和禁忌症资源检查候选方案，修订不安全的预测，并生成可追溯的报告。我们在MIMIC-III（Johnson等人，2016 (https://arxiv.org/html/2605.29146#bib.bib37)）和MIMIC-IV（Johnson等人，2024 (https://arxiv.org/html/2605.29146#bib.bib38)）数据集上评估SafeRx-Agent，同时使用药物预测准确性和安全性指标。SafeRx-Agent在预测准确性上优于传统深度学习、LLM和智能体基线，同时通过显式安全性验证降低了DDI率和禁忌症率。我们的主要贡献包括：
- •我们首次引入了从EHR中预测ATC-L4代码集的细粒度药物推荐设定，超越了先前基准中使用的粗粒度ATC-L3设定。
- •我们提出了SafeRx-Agent，一个药物推荐多智能体框架，将专科感知生成、证据基础、安全性感知修订和可追溯报告统一在一个工作流程中。
- •我们引入了一个基于知识的安全性验证器，能够检测药物相互作用和禁忌症风险，修订不安全的候选方案，并生成可追溯的药物报告。
- •我们在两个真实EHR数据集上评估SafeRx-Agent，展示了更高的细粒度预测准确性、更低的安全风险，以及更接近真实情况的预测药物集合规模。

## 2 相关工作

#### 监督式药物推荐。
监督式方法将药物推荐视为结构化EHR代码上的多标签预测任务。GAMENet（Shang等人，2019 (https://arxiv.org/html/2605.29146#bib.bib20)）引入了图增强记忆和DDI感知解码，后续工作加入了分子结构（Yang等人，2021 (https://arxiv.org/html/2605.29146#bib.bib21), 2023 (https://arxiv.org/html/2605.29146#bib.bib23)）、复制生成解码（Wu等人，2022 (https://arxiv.org/html/2605.29146#bib.bib22)）以及罕见药物或冷启动训练（Zhao等人，2024 (https://arxiv.org/html/2605.29146#bib.bib24); Kuang and Xie, 2024 (https://arxiv.org/html/2605.29146#bib.bib9)）。这些模型基于粗粒度ATC-L3词汇表，并通过损失函数隐式编码安全性，但无法执行细粒度药物预测。

#### 用于药物推荐的LLM。
直接提示通用或医学LLM（Zhang等人，2024 (https://arxiv.org/html/2605.29146#bib.bib25); Christophe等人，2024 (https://arxiv.org/html/2605.29146#bib.bib10); Ankit Pal, 2024 (https://arxiv.org/html/2605.29146#bib.bib26); Chen等人，2024 (https://arxiv.org/html/2605.29146#bib.bib27); Garcia-Gasulla等人，2025 (https://arxiv.org/html/2605.29146#bib.bib28)）能利用比结构化代码模型更丰富的文本上下文，但缺乏内置的安全性验证（Hager等人，2024 (https://arxiv.org/html/2605.29146#bib.bib29); Asgari等人，2025 (https://arxiv.org/html/2605.29146#bib.bib30); Farrag等人，2026 (https://arxiv.org/html/2605.29146#bib.bib31)）。微调方法如LAMO（Zhao等人，2025 (https://arxiv.org/html/2605.29146#bib.bib32)）、FLAME（Fan等人，2026 (https://arxiv.org/html/2605.29146#bib.bib33)）和LEADER（Liu等人，2025 (https://arxiv.org/html/2605.29146#bib.bib8)）通过损失函数、奖励或蒸馏来处理安全性，但需要特定任务训练，且仍受限于固定的主干模型。

#### 用于临床决策支持的多智能体框架。
多智能体LLM系统通过协调不同角色分解临床推理，用于医学问答（Tang等人，2024 (https://arxiv.org/html/2605.29146#bib.bib34); Kim等人，2024 (https://arxiv.org/html/2605.29146#bib.bib35)）和罕见病诊断与治疗（Chen等人，2026 (https://arxiv.org/html/2605.29146#bib.bib13)）。然而，现有的基于智能体的生成框架通常不支持通过资源基础验证多种安全风险（包括DDI和基于诊断的禁忌症）的细粒度药物预测。

## 3 问题形式化与知识资源

### 3.1 问题形式化

设患者记录为一个按时间顺序排列的ICU就诊序列 \(v_1, \ldots, v_T\)，其中每次就诊 \(v_t = (D_t, P_t, M_t)\) 包含诊断、手术和用药。诊断用ICD-CM代码表示，手术用ICD-PCS代码表示，用药用ATC-L4代码表示。给定既往就诊以及当前的诊断和手术，任务是预测当前就诊的用药方案。对于就诊 \(T\)，输入为 \(X_T = \{ (D_t, P_t, M_t) \}_{t < T}\) 以及 \((D_T, P_T)\)，输出为预测的用药集合 \(\hat{M}_T\)，其中包含ATC-L4代码。任务要求预测的用药集合在细粒度上匹配真实用药集合 \(M_T\)，同时最小化DDI和禁忌症数量。

### 3.2 知识资源

SafeRx-Agent在推理过程中使用三个知识资源。

**DDI知识。** 我们构建了一个二进制DDI矩阵，基于DrugBank版本5.1.12，其中包含DrugBank中所有药物对的已知相互作用。对于每种药物，我们计算其全局DDI度数，即与该药物至少有一个相互作用的独特药物总数。该度数用于在验证过程中对更危险的药物进行优先级排序。矩阵以二进制格式存储；在推理时，我们查找生成的候选药物集合中所有成对组合以标记潜在的DDI。

**禁忌症知识。** 我们构建了一个二进制禁忌症矩阵，映射ATC-L4代码与ICD-9-CM诊断代码。我们利用源自SIDER 4.1的禁忌症数据。对于SIDER中每种药物的每个禁忌症，我们将禁忌症概念映射到ICD-9-CM代码，并将药物代码映射到其ATC-L4父级。矩阵以二进制格式存储，用于验证过程中基于诊断的冲突检测。

**ATC与ICD分类体系。** ATC（解剖学治疗化学分类）体系将药物组织成具有层次路径的树状结构。ICD（国际疾病分类）体系对诊断进行分类。SafeRx-Agent使用这些分类体系的文本描述来指导智能体决策。ATC-L4代码（例如，C10AA、B01AB）精确长度为5个字符：1个字母 + 2位数字 + 2个字母。所有知识资源均使用封闭的预测ATC-L4词汇表（MIMIC-III：216个代码；MIMIC-IV：215个代码）。

## 4 SafeRx-Agent 框架

SafeRx-Agent是一个基于知识的多智能体框架，用于安全且可解释的药物推荐。它包含以下阶段：

### 4.1 阶段1：患者上下文总结

输入是格式化的患者文本转录（包含诊断、手术、既往用药）。**Summarize**智能体生成一个全面的总结，捕捉活动性病症、病史、手术、护理紧急程度、感染证据、疼痛/神经需求、肾/代谢异常、胃肠/营养状况、VTE/出血风险以及需要延续的既往用药。该总结作为所有后续智能体的共享上下文。

### 4.2 阶段2：专科感知的药物生成

给定总结，**Router**智能体将病例分配给相关的专科**DrugAgent**。每个DrugAgent对应于一个ATC解剖学主要组（例如，心血管系统、血液及造血器官、神经系统）。它接收患者总结、ICD分类体系、ATC分类体系以及适应症证据。输出是每个Agent专业范围内的一组建议ATC-L4代码，附带支持性理由。

### 4.3 阶段3：评审与修订

**Critique**智能体合并所有DrugAgent的输出，检查重复项，并根据推理一致性规则应用初步过滤。然后，**Verify**智能体执行安全性验证：对于每个候选药物，它查找DDI矩阵和禁忌症矩阵以标记冲突。它执行保留/移除的裁决，用来自同一治疗子组的更安全替代代码替换有问题的代码，并输出最终推荐集和可追溯的验证报告。

### 4.4 阶段4：可追溯报告

最终输出包括预测的ATC-L4代码集以及一个JSON对象，包含每个预测代码的理由、任何已解决的DDI或禁忌症冲突，以及任何替代的详细信息。该报告可供临床医生审查。

## 5 实验

### 5.1 数据集

我们使用MIMIC-III（v1.4）和MIMIC-IV（v2.2）数据集。我们遵循与先前工作类似的数据预处理，但将药物映射到ATC-L4级别。我们使用第3.2节中描述的封闭词汇表。对于每个数据集，我们按时间顺序分割，使用80%用于训练/验证，20%用于测试。我们报告五次运行的平均值。

### 5.2 基线

我们将SafeRx-Agent与以下基线进行比较：
- **Direct LLM（直接LLM）**：提示GPT-4o直接预测ATC-L4代码。
- **General Agent（通用智能体）**：一个单一的LLM智能体，使用与SafeRx-Agent相同的总结/生成/评审结构，但涵盖所有治疗领域。
- **RareAgents（改编版）**：我们改编了RareAgents框架用于ATC-L4预测，包括主治医师、专科讨论和Dx/DDI图反馈。
- **GAMENet**：一个基于图的模型，使用DDI-aware解码，在ATC-L4词汇表上训练。
- **LEADER**：一个微调的LLM模型，使用蒸馏来考虑安全性。

### 5.3 指标

- **Jaccard相似度**：预测集与真实集之间的交集/并集。
- **F1-score**：在ATC-L4级别上的微观F1分数。
- **DDI率**：预测集内DDI对的数量。
- **禁忌症率**：预测集内药物-诊断禁忌症对的数量。
- **集合大小差异**：预测集大小与真实集大小之间的平均绝对差异。

### 5.4 主要结果

表1显示了主要结果。SafeRx-Agent在MIMIC-III和MIMIC-IV上均优于所有基线，在Jaccard相似度和F1分数上取得了最高值，同时实现了最低的DDI率和禁忌症率。LLM和智能体基线在没有显式安全性验证的情况下产生了更高的风险。GAMENet和LEADER等监督方法在ATC-L4上表现不佳，因为细粒度预测更具挑战性。

### 5.5 消融研究

我们进行了消融研究以评估每个组件的影响：
- 移除**Verify**智能体导致DDI率增加40%，禁忌症率增加30%。
- 移除专科**Router**（使用通用智能体）降低了Jaccard相似度并增加了集合大小差异。
- 用结构化代码模型替换基于LLM的生成降低了细粒度预测的准确性。

## 6 讨论

### 6.1 安全性方面的改进

SafeRx-Agent通过显式验证DDI和禁忌症，相比于依赖隐式安全性的方法，提供了实质性的安全性改进。在临床部署中，这可以防止潜在的有害药物组合。

### 6.2 局限性与未来工作

SafeRx-Agent依赖于外部知识资源的完整性和正确性。对于罕见疾病或药物，这些资源可能不完整。未来的工作可以整合在线资源（如PubMed）的实时检索，并处理冷启动药物。此外，该框架目前不支持剂量信息，而剂量是给药安全性的关键。扩展到剂量感知的推荐是未来研究的重要方向。

## 7 结论

我们提出了SafeRx-Agent，一个基于知识的多智能体框架，用于安全且可解释的细粒度药物推荐。它结合了专科感知生成、证据基础和显式安全性验证。在真实EHR数据集上的实验表明，它提高了预测准确性，降低了安全风险，并提供了可追溯的决策过程。这是朝着在现实临床环境中部署安全、可信赖的AI药物推荐系统迈出的一步。

## 参考文献

[按论文原文列表保留，但这里只翻译标题，引用格式不变]

致谢

本项目由[在最终版本中填写资助信息]支持。计算资源由[在最终版本中填写]提供。

## I 附录

### I.1 Verify智能体提示模板

图10：SafeRx-Agent验证算子提示模板，详见第4.4节。系统提示编码了保留/移除的裁决策略；用户提示由矩阵检索的DDI和禁忌症标志、药物名称查找以及既往用药状态动态组装而成。[PRIOR]标签标记从既往就诊延续下来的药物，以便模型偏向延续。

### I.2 基线提示模板

我们提供了实验中使用的简化提示模板。图11-13显示了直接提示、通用智能体基线以及改编版RareAgents基线的模板。

**直接LLM提示**
系统提示：你是一名住院医师。对于ICU住院患者入院，预测该患者入院期间用药清单中将出现的ATC四级药物类别。
用户提示：{患者文本}
任务指令：逐步推理，然后输出一个JSON对象。ATC四级代码恰好为5个字符：字母+2位数字+2个字母（例如，C10AA、B01AB、N02BE）。不要编造代码，如果不确定则省略。
输出格式：仅输出严格JSON（无markdown，无注释）：
```json
{
  "reasoning": "",
  "predicted_drugs": [
    {"code": ""}
  ]
}
```
图11：直接提示基线的提示模板。

**通用智能体提示（注）**
通用智能体基线复用了SafeRx-Agent的Summarize和Generate提示结构（图7和图8）以及共享的Critique提示（图9），但将路由的专科专家替换为一个覆盖所有治疗领域的单一*通用智能体*技能。只有技能中注入的*总结手册*和*药物预测检查表*与SafeRx-Agent版本不同；两者均复制如下。

**总结阶段——通用智能体手册：**总结患者记录以支持广泛的住院药物预测。总结应捕捉活动性病症、相关慢性病史、手术、护理紧急程度、药物相关风险以及既往用药证据。应涵盖各个治疗领域，而非专门针对某个器官系统。特别地，总结应保留可能影响用药选择的信息，包括急性诊断、合并症、手术、危重症状态、感染证据、疼痛或神经需求、肾和代谢异常、胃肠或营养状况、VTE或出血风险，以及可能需要从既往就诊延续的药物。

**生成阶段——通用智能体药物预测指令：**作为单一全科智能体，预测当前住院患者入院的ATC四级药物类别。使用患者总结、既往就诊用药证据、与诊断相关的用药证据以及封闭的ATC四级词汇表。预测应涵盖疾病导向治疗和常见的住院支持治疗，同时要求每个药物类别有患者特定的证据。智能体应通过识别活动性问题和慢性病症、将每个问题映射到合理的用药需求、检查是否应延续既往用药，以及考虑与手术、危重病、感染管理、疼痛控制、血栓预防、胃肠保护、电解质纠正、营养和肠道护理相关的药物来进行推理。仅当当前就诊上下文、纵向病史或记录中有明确证据支持时，才应包含药物类别。智能体应优先充分覆盖临床支持的用药需求，但应避免仅因为它们在住院护理中常见而添加类别。置信度应反映证据强度：对于明确记录的药物或适应症，使用高置信度；对于合理但间接的临床支持，使用低置信度。

图12：通用智能体基线的提示模板。基线复用了SafeRx-Agent的Summarize、Generate和Critique结构，但将路由的专科专家替换为一个全领域*通用智能体*。

**改编版RareAgents风格的提示（适配ATC-L4）**

**阶段1：主治医师。** 你是协调多学科团队（MDT）的主治医师。根据患者资料和41名临床专科医生池（每个专科医生由ID、名称和临床范围定义），选择其专长与患者活动性诊断、手术和用药需求相关的专科医生。优先选择直接匹配病例的疾病和器官系统专科医生，并在临床药学或内科等专科医生的范围能够改善治疗审查时纳入他们。以JSON格式返回选定的专科医生ID和简短理由。

**阶段2：专科讨论。** 你是MDT中的[专科医生名称]专科医生。根据患者资料、既往处方史以及你的专科范围，讨论哪些药物类别在当前入院中具有临床相关性。在可用时，使用提供的DrugBank和DDI图反馈来指出治疗证据和潜在安全性问题。仅提出属于你专科范围的药物。输出5字符ATC四级代码，适配我们的封闭预测词汇表，并将成分级别的ATC代码转换为其四级父代码。如果你的专科没有相关药物则返回空列表。
SafeRx-Agent：一个基于知识的多智能体框架，用于安全且可解释的药物推荐

相似文章

OncoAgent：用于保护隐私的肿瘤临床决策支持的双层多智能体框架

MARD：镜像增强推理蒸馏用于机制级药物-药物相互作用预测

SEMA-RAG：一种用于医学推理的自进化多智能体检索增强生成框架

经验造就技能：通过自我演进的技能记忆实现可泛化的医学智能体推理

MedSkillAudit：医学研究智能体技能领域专用审计框架

提交意见反馈