SEMA-RAG：一种用于医学推理的自进化多智能体检索增强生成框架

arXiv cs.CL 2026/05/19 04:00 论文

retrieval-augmented-generation multi-agent medical-reasoning clinical-reasoning self-evolving llm framework

摘要

SEMA-RAG是一种自进化多智能体RAG框架，用于医学问答，它将解读、探索和裁决解耦为三个专业智能体，在多个基准测试中相较于基线取得了显著的准确率提升。

arXiv:2605.17101v1 公告类型：新摘要：检索增强生成（RAG）被广泛用于缓解医学问答中的幻觉和知识过时等风险，但其主要采用单轮静态检索范式，与临床推理的多阶段过程不符。这种压缩的工作流导致了两个结构性缺陷：问题到查询的转换通常缺乏临床基础的语义解读，且检索缺乏迭代充分性反馈，难以形成可靠的证据链。我们认为这两个问题都源于一个更深层次的原因：将解读、探索和裁决这三种异构任务过载到单一推理链上。解决方案是通过任务解耦和动态多轮探索来重构工作流。为此，我们提出了SEMA-RAG，一种用于医学问答的自进化多智能体RAG框架，它将这些角色分配给三个专业智能体：解释器智能体负责临床模式解读，探索器智能体负责充分性驱动的自进化检索，裁决器智能体负责证据裁决和答案选择。在五个基准测试和五个大语言模型主干的测试中，SEMA-RAG在每个主干上平均比最强基线提高了+6.46个准确率点。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:38

# SEMA-RAG：一种用于医学推理的自进化多智能体检索增强生成框架  
来源：https://arxiv.org/html/2605.17101  

Yongfeng Huang¹†, Ruiying Chen²†, James Cheng¹†  
¹香港中文大学计算机科学与工程系  
²武汉理工大学  
\{yfhuang22,jcheng\}@cse.cuhk.edu.hk, [email protected]  

###### 摘要  
检索增强生成（RAG）被广泛应用于缓解医学问答中的幻觉和知识过时等风险，但其主要以单轮静态检索为范式的做法与临床推理的多阶段过程不符。这种压缩的工作流导致了两个结构性缺陷：问题到查询的转换往往缺乏临床基础的语义解释，并且检索缺乏迭代充分性反馈，难以形成可靠的证据链。我们认为，这两个问题源于更深层次的原因——将解释、探索和裁决等异构任务过载到单一推理链上，而解决方案是通过任务解耦和动态多轮探索来重构工作流。为此，我们提出了 SEMA-RAG，一个自进化多智能体 RAG 框架，用于医学问答。该框架将上述角色分配给三个专家智能体：解释器智能体（Interpreter Agent）负责临床模式解释，探索者智能体（Explorer Agent）负责充分性驱动的自进化检索，裁决者智能体（Arbiter Agent）负责证据裁决和答案选择。在五个基准测试和五个 LLM 后端上，按每个后端平均，SEMA-RAG 相较于最强基线提升了 +6.46 个准确率点。  

# SEMA-RAG：一种用于医学推理的自进化多智能体检索增强生成框架  
Yongfeng Huang¹†（共同第一作者）, Ruiying Chen²†（共同第一作者）, James Cheng¹†（通讯作者）  
¹香港中文大学计算机科学与工程系  
²武汉理工大学  
\{yfhuang22,jcheng\}@cse.cuhk.edu.hk, [email protected]  

## 1 引言  
近年来，大语言模型（LLMs）在医疗保健应用中展现出了理解与推理医学知识的特定能力（Kung 等，2023；Omar 等，2024）。然而，在高风险的临床环境中，它们仍然容易产生幻觉和采用过时信息（Omiye 等，2024；Roustan 和 Bastardot，2025）。检索增强生成（RAG）通过引入外部权威证据来支持生成过程，已被广泛采用以缓解这些风险（Lewis 等，2020）。  

(图 1: 五个 LLM 后端平均的基准准确率。图中显示了 MMLU、MedQA-US、MedMCQA、PubMedQA*、BioASQ 等基准上，最佳基线平均准确率与 SEMA-RAG 平均准确率的对比。SEMA-RAG 在所有基准上均优于最佳基线。)  

然而，标准 RAG 框架通常将检索视为静态的、单轮的辅助步骤，这与临床推理的多阶段过程不符：临床医生通常首先将患者叙述解释为可检索的临床问题，然后逐步收集和验证信息以填补证据空白，最后权衡并整合冗余或矛盾的证据，基于相对可靠的证据形成判断（Lin 等，2012；Yazdani 等，2017）。相比之下，单轮静态 RAG 将此过程压缩为单一的检索和生成步骤。这好比要求临床医生在收到初始病历后立即同时进行分析、检索、评估和诊断，而无需随着新证据的出现调整其推理。这通常导致两个结构性缺陷：  
*(i)* 从问题到查询的转换缺乏临床语义解释，使得隐式约束难以明确表达（Soldaini 等，2017）；以及  
*(ii)* 检索过程缺乏充分性评估和反馈机制，阻碍了在证据不足时实现自进化的迭代收敛，从而削弱了可靠证据链的形成（Mallen 等，2023；Shi 等，2023）。  
我们认为，这些缺陷并非独立问题，而是更深层次问题的表现：**将异构任务过载到单一推理链上**。当问题解释、证据探索和答案裁决紧密耦合时，认知负荷增加，步骤相互依赖，使得模型在证据不足或矛盾时难以及时调整检索和推理（Wang 等，2023；Liu 等，2024）。因此，关键不在于强化单轮推理，而在于重构 RAG 以更好地匹配分阶段的临床工作流，将单轮查询扩展为多轮迭代探索。每轮检索后，系统评估证据是否涵盖关键约束，然后选择下一步行动：如果充分则终止探索并进入决策整合阶段，否则生成针对性的后续查询以填补空白。这种机制根据每轮评估结果持续更新查询和检索方向，使系统能够随着证据逐步积累进行调整和收敛。在这个意义上，该过程构成了一种**测试时自进化**形式，系统在执行任务期间自适应地更新其查询和检索轨迹，同时与当前问题实例保持紧密耦合（Gao 等，2026）。为简洁起见，我们在本文其余部分使用“自进化”一词来指代这种测试时设定。  
为此，我们提出了 SEMA-RAG（自进化多智能体 RAG）。该框架通过任务解耦和角色专业化模拟临床工作流，将复杂的临床推理分解为三个协作模块：**解释器智能体（I-Agent）** 将非结构化输入映射为结构化临床语义；**探索者智能体（E-Agent）** 实现基于证据充分性驱动的自进化检索，进行收敛性探索；**裁决者智能体（A-Agent）** 基于闭环证据进行全面裁决。我们在五个医学问答基准上评估了 SEMA-RAG。如图 1 所示，当在多个底层 LLM 上平均时，SEMA-RAG 在每个基准上的平均准确率均持续优于代表性基线。在五个基准和五个 LLM 后端上，它相对于最强基线平均提升了 +6.46 个准确率点，验证了通过任务解耦、角色专业化和证据充分性驱动的自进化检索构建收敛证据链的有效性。  
我们的主要贡献如下：  
- • 提出了 SEMA-RAG，一个用于医学问答的多智能体 RAG 框架，通过角色分工与协作建模临床推理过程。  
- • 开发了一个自进化的探索者智能体，根据证据空白更新查询，引导检索朝向医学推理目标。  
- • 在五个医学问答基准上，使用多种底层 LLM 验证了 SEMA-RAG，实现了对基线的一致改进。  

(图 2: SEMA-RAG 概览：(i) I-Agent 将输入问题 Q 结构化为临床模式元组 Q' 用于检索；(ii) E-Agent 进行充分性驱动的自进化多轮检索以获得收敛的证据集 C*；(iii) A-Agent 将证据裁决为可追溯的报告 R，并基于 R 选择最终答案。)  

## 2 预备知识  

### 2.1 医学 RAG 的任务形式化  
给定一个医学问题 Q，系统从离散候选集 Y（y ∈ Y）中选择最终答案 ỹ。在仅基于问题的检索条件下，系统只能从医学语料库 C 中检索证据。核心 RAG 包含一个检索算子 Ret(·) 和一个生成算子：C = Ret(Q)，并据此预测：  
ỹ = arg max_{y ∈ Y} p(y | Q, C)。  

### 2.2 多智能体角色与抽象  
我们采用基于角色的分工，三个智能体协作完成医学问答过程：I-Agent 处理问题解释，E-Agent 管理证据探索，A-Agent 负责答案裁决。三个智能体共享相同的底层语言模型，仅通过角色特定的提示词进行区分。我们将共享 LLM 在角色提示 Pmt_r 和输入 X 下的输出记为 Agent_r(Pmt_r, X)，其中 X 可以是包含多个元素的集合。  

## 3 方法  
图 2 展示了 SEMA-RAG 的总体框架，包含三个基于角色的智能体，其职责如下所述。  

### 3.1 I-Agent 作为问题解释器  
I-Agent 不仅仅是对输入的医学问题 Q 进行重新措辞；相反，它对 Q 进行语义结构化，并将其投影到一个显式的**临床模式（Clinical Schema）**上。这一过程将潜在的临床意图和关键约束外部化，为后续检索和推理提供稳定的锚点。具体来说，I-Agent 生成一个包含四个组件的临床模式元组 Q'：  
*(i)* 临床意图 o_int：描述隐含的任务类型（例如，诊断、治疗、剂量）；  
*(ii)* 医学实体 o_ent：识别核心医学对象（例如，疾病、药物）；  
*(iii)* 临床约束 o_cons：指定适用条件（例如，孕妇、肾功能不全、成人）；以及  
*(iv)* 初始检索查询 q_init：一个从上述模式中提炼的、面向搜索的简洁问题。  
形式上，I-Agent 将 Q 映射到模式元组：  
Q' = ⟨o_int, o_ent, o_cons, q_init⟩ = Agent_I(Pmt_I, Q)。  
为使模式元组能被密集检索器使用，我们进一步将 Q' 线性化为一个检索就绪的查询字符串：  
\hat{q}_init = Linearize(Q') = Concat(q_init, ⊕, o_int, ⊕, o_ent, ⊕, o_cons)，  
其中 ⊕ 表示分号分隔符。这里，Linearize(·) 是一个无参函数，没有字段特定权重或额外的控制标记。它保留 q_init 作为核心查询，同时显式引入 o_int、o_ent 和 o_cons，使临床重要但隐式的约束对检索器更加可见，从而减少初始检索阶段的语义漂移。生成的查询 \hat{q}_init 用于初始化 E-Agent，而 Q' 作为后续协调的临床锚点。  

### 3.2 E-Agent 作为知识探索者  
E-Agent 从 I-Agent 生成的线性化模式查询 \hat{q}_init 开始，通过自进化的迭代检索过程逐步完善证据，最终构建出证据集 C*。  

##### 检索空间初始化  
我们基于医学语料库 C 构建一个密集向量检索空间。使用参数冻结的医学双编码器，将查询和文档映射到同一向量空间，其中 E_qry(·) 和 E_doc(·) 分别表示查询编码器和文档编码器。给定查询 q，基于向量相似度检索其 Top-k 候选文档（段落/块）如下：  
TopK(q) = Top-k_{D ∈ C} ⟨E_qry(q), E_doc(D)⟩，  
其中 Top-k 返回相似度分数最大的 k 个文档。  

##### 自进化证据检索循环  
以线性化模式查询 \hat{q}_init 作为初始查询，我们设置 Q_1 = {\hat{q}_init} 和 C_0 = ∅，其中 Q_t 是第 t 轮检索的查询集，C_t 是第 t 轮后累积的证据集。每个检索到的文档 D_i 关联一个确定的文档标识符 ID(D_i)，并在整个流程中保留以进行精确去重和来源追踪。  
在第 t 轮，E-Agent 对 Q_t 中的每个查询进行检索并更新证据集：  
D_t = ⋃_{q ∈ Q_t} TopK(q)，  
C_t = C_{t-1} ∪ {D_i ∈ D_t : ID(D_i) ∉ IDs(C_{t-1})}。  
基于临床锚点 Q'、当前文本查询集 Q_t 和证据集 C_t，E-Agent 预测充分性标志 s_t、缺口描述 g_t 和下一轮查询集 Q_{t+1}：  
= Agent_E(Pmt_E, [Q', Q_t, C_t])，  
Q_{t+1} = {q_{t+1}⟨1⟩, ..., q_{t+1}⟨m⟩}，  
其中 s_t ∈ {0, 1} 表示证据充分性：若 s_t = 1，则证据充分，设 Q_{t+1} = ∅；否则（s_t = 0），存在证据缺口，g_t 识别缺失的条件或推理步骤，Q_{t+1} 据此生成 m 个针对这些缺口的候选后续查询。当 s_t = 0 时，生成的 Q_{t+1} 将在下一轮发出以检索更多证据，结果被纳入 C_{t+1} 的更新中。迭代在 s_t = 1、t = T_max 或停滞（即 Q_{t+1} = ∅）时终止。终止后，我们得到闭环证据集，记录实际迭代次数 T ≤ T_max，并存储自进化轨迹：  
C* = C_T, τ = {[Q_1, C_1], ..., [Q_T, C_T]}。  

### 3.3 A-Agent 作为证据裁决者  
A-Agent 通过将收敛集 C* 组织成可追溯的证据报告，并从中生成离散答案，来裁决证据。  

#### 证据

SEMA-RAG：一种用于医学推理的自进化多智能体检索增强生成框架

相似文章

RAGA：用于自主知识图谱构建和检索增强生成的阅读与图谱构建智能体

@omarsar0：// 多智能体合成 RAG // 一篇关于用多智能体改进 RAG 系统的佳作。（收藏）论文简介…

RAG-Anything：全能型 RAG 框架

面向金融文档问答的代理式检索增强生成

AgenticRAG：面向企业知识库的代理检索

提交意见反馈