面向临床智能体的世界反馈:在FHIR环境中诊断强化学习
摘要
本文研究了在FHIR环境中为临床协议执行任务使用来自世界反馈的强化学习,识别了诸如高静默完成上限和零梯度任务等结构性障碍,并引入了具有更低上限的MedAgentBench-v3。它表明,由于这些障碍,纯强化学习表现不如基于规则的SFT,并提出了一种结合SFT+RL的方法。
arXiv:2607.01470v1 公告类型:新
摘要:临床协议执行任务——检查实验室值、应用阈值、下达结构正确的FHIR订单——是来自世界反馈的强化学习的自然候选:一旦临床领域专家将决策逻辑编码到验证器中,该验证器就可以对无限次展开进行评分,而无需每次交互的注释。但应用RL需要健全的反馈通道和足够的基础能力。我们审查了MedAgentBench v1/v2,发现41.7%的静默完成上限使得不作为成为RL的支配策略,并构建了**MedAgentBench-v3 (MAB-v3)**(508个任务,上限8.9%)。训练Qwen3-8B暴露了两个结构性障碍:*能力上限*(10/20种任务类型基础性能为0%,梯度为零)和*格式知识障碍*(3/20种类型需要无法通过探索发现的精确临床代码)。纯RL达到了18.2%的pass@1,而基于规则的SFT达到了34.1%;这15.9个百分点的差距完全归因于这些障碍。一种决策/格式知识/查询分类法可以预测RL的可学习性,并给出了解决方案:SFT注入代码,RL学习条件。
查看缓存全文
缓存时间: 2026/07/03 05:44
# FHIR 环境中的 RL 诊断 来源:https://arxiv.org/html/2607.01470
## 面向临床智能体的世界反馈:在 FHIR 环境中诊断 RL
###### 摘要
临床协议执行任务——检查实验室数值、应用阈值、下达结构正确的 FHIR 医嘱——自然适合采用基于世界反馈的强化学习:一旦临床领域专家将决策逻辑编码为验证器,该验证器即可对无限次生成结果进行评分,无需逐轮标注。但应用 RL 需要可靠的反馈通道和足够的基础能力。我们对 MedAgentBench v1/v2 进行审计,发现 41.7% 的静默完成上限使得不作为成为 RL 的主导策略,并构建了 MedAgentBench-v3(MAB-v3)(508 个任务,8.9% 上限)。训练 Qwen3-8B 暴露出两个结构性障碍:能力上限(20 个任务类型中有 10 个基准性能为 0%,梯度为零)和格式知识障碍(20 个类型中有 3 个需要无法通过探索发现的精确临床代码)。纯 RL 达到 18.2% 的 pass@1,而基于规则的 SFT 为 34.1%;15.9 个百分点的差距完全归因于这些障碍。决策/格式知识/查找分类法可预测 RL 的可学习性,并提出了修复方法:用 SFT 注入代码,用 RL 学习条件判断。
reinforcement learning, clinical AI, FHIR, world feedback, GRPO
## 1 引言
一大类临床任务涉及*协议执行*:给定已知决策规则,智能体检索实验室数值、应用阈值,若触发则下达结构正确的 FHIR 医嘱。这些是管理工作流任务——并非替代医生判断,而是执行常规医嘱(Jiang 等,2025 (https://arxiv.org/html/2607.01470#bib.bib8);Lee 等,2025 (https://arxiv.org/html/2607.01470#bib.bib14);Bedi 等,2026 (https://arxiv.org/html/2607.01470#bib.bib13))。MedAgentBench v1 和 v2(定义了本文研究的 20 种任务类型)由临床团队构建,每个工作流均根据实际 EHR 实践进行了验证(Jiang 等,2025 (https://arxiv.org/html/2607.01470#bib.bib8);Chen 等,2025 (https://arxiv.org/html/2607.01470#bib.bib9))。
#### 为什么采用世界反馈的 RL:协议正确性是可验证的:一旦临床领域专家将决策逻辑编码为验证器,该验证器即可自动对每轮生成结果评分。这与 RLHF(Christiano 等,2017 (https://arxiv.org/html/2607.01470#bib.bib2);Ouyang 等,2022 (https://arxiv.org/html/2607.01470#bib.bib19))有本质区别:领域专家的工作被前置到环境设计中,而非用于标注单个回合。另一种方案——有监督的 SFT 演示——需要手动编码每条临床规则,偏向于动作分支实例,并且当协议变更时需要重新生成。基于世界反馈的 RL 避免了这些问题:智能体探索环境并从验证器接收反馈,协议变更仅需一次更新。
#### 我们的实验揭示了什么:在此应用 RL 并非易事。两个结构性障碍限制了一种朴素方法。首先,反馈通道必须干净:MedAgentBench v1/v2 有 41.7% 的静默完成上限(41.7% 的任务无需工具调用即可通过),使得不作为成为 RL 的主导策略。GRPO(Shao 等,2024 (https://arxiv.org/html/2607.01470#bib.bib4))在未修正的 MAB-v2 上收敛于 0% 的动作分支通过率。我们构建了 MedAgentBench-v3(MAB-v3)(508 个任务,8.9% 上限)来解决此问题。其次,即使在干净的基准上,20 个任务类型中有 3 个需要精确的临床代码(SNOMED、NDC),这些代码无法通过探索发现——奖励景观平坦——而 10 个类型具有零基础能力,梯度为零。这两个障碍解释了 15.9 个百分点的差距:SFT(34.1%)注入了代码和格式;纯 RL(18.2%)无法做到。这两种方法互补,SFT+RL 是我们的结果所建议的方案。
#### 贡献:
- • **MAB-v3 + 环境**(第 3 节 (https://arxiv.org/html/2607.01470#S3),4.1 (https://arxiv.org/html/2607.01470#S4.SS1)):修正了 508 任务基准测试(静默完成上限从 41.7% 降至→8.9%),提供了一个自包含的世界反馈环境:离线 FHIR 服务器、可审计的基于规则的验证器,以及针对条件性临床行为的刻意奖励塑形。
- • **RL 限制的结构化诊断**(第 4 节 (https://arxiv.org/html/2607.01470#S4)–5 (https://arxiv.org/html/2607.01470#S5)):基础 16.6%、SFT 34.1%、纯 RL 18.2%。SFT 与 RL 之间 15.9 个百分点的差距可归因于格式知识和能力上限故障,而非 RL 算法或奖励设计。
- • **任务分类法**(第 6 节 (https://arxiv.org/html/2607.01470#S6)):决策/格式知识/查找框架,经过逐类型结果验证,可从第一性原理预测 RL 的可学习性,并建议 SFT+RL 作为混合结构临床基准的正确组合。
## 2 相关工作
#### FHIR 智能体评估:Jiang 等人 (2025 (https://arxiv.org/html/2607.01470#bib.bib8)) 引入了 MedAgentBench,将临床智能体评估建立在 FHIR 工具使用之上;MAB v2 (Chen 等人,2025 (https://arxiv.org/html/2607.01470#bib.bib9)) 将其扩展至 300 个任务。两者均未考察基准作为训练信号的有效性。FHIR-AgentBench (Lee 等人,2025 (https://arxiv.org/html/2607.01470#bib.bib14)) 针对的是 MIMIC-IV 的事实检索,而非临床行动。HealthAdminBench (Bedi 等人,2026 (https://arxiv.org/html/2607.01470#bib.bib13)) 记录了子任务/任务可靠性差距,与我们量化的动作/聚合分化类似。
#### 基于可验证非人类反馈的 RL:基于结果的 RL 与确定性验证器在数学领域取得了重大进展(Shao 等人,2024 (https://arxiv.org/html/2607.01470#bib.bib4);Guo 等人,2025 (https://arxiv.org/html/2607.01470#bib.bib5))。我们的贡献在于将该范式应用于临床环境,并表明任务结构决定了验证器是否提供可学习的信号——这与算术等同质领域不同。多任务梯度主导(Wu 等人,2026 (https://arxiv.org/html/2607.01470#bib.bib17);Ramesh 等人,2026 (https://arxiv.org/html/2607.01470#bib.bib15))是一种已知的失败模式,我们通过每任务优势归一化来解决。
## 3 MedAgentBench-v3:恢复世界反馈信号
### 3.1 为什么原始基准测试会破坏 RL
两个属性共同使得不作为成为 MAB-v2 上的 RL 主导策略。**分支不平衡**:由于队列组成,四个 v2 任务类型中 70–97% 的实例位于无动作分支。RL 奖励最常见的结果;在这些类型上,绝大多数情况下放弃操作是正确的。**静默完成上限**:在所有 600 个 MAB-v2 任务上运行空智能体(立即 `finish([])`,无工具调用)可获得 41.7% 的通过率。这不是单个任务的错误——许多患者确实不需要干预——但它创造了一种 RL 主导策略:忽略 FHIR 数据并放弃操作可在学习任何临床行动之前获得 41.7% 的分数。在未修正的 MAB-v2 上,GRPO 在 200 步内收敛于 0% 的动作分支通过率(图 1 (https://arxiv.org/html/2607.01470#S3.F1))。
### 3.2 其他评估缺陷
**未记录的格式要求**:v1-T5、v1-T9 和 v2-T3 的评分器强制实施任务上下文中不存在的格式约定:裸字符串路由字段、分层剂量公式和双元素返回数组。临床正确但格式不正确的响应会系统性失败。我们在任务上下文中添加了缺失的文档。
**壁钟错误**:v2-T1 评分器调用 `datetime.now()` 作为 CT 随访参考日期,导致在 2025–2026 年运行时,30 个 v2-T1 任务实例中有 4 个被错误归类为需要操作。我们将时间戳冻结为 `2023-11-13T10:15:00+00:00`。
### 3.3 MAB-v3 构建
四项修正:(1)上下文补丁(v1-T5、v1-T9、v2-T3);(2)固定时间戳(v2-T1);(3)对所有 600 个任务进行静默完成标注;(4)按(语料库、任务类型)的 1:1 分支平衡上限。
**结果**。MAB-v3 来自两个源语料库——MAB v1(原始 300 个任务)和 MAB v2-new(300 个新任务)——涵盖约≈100 个真实匿名患者的 20 种任务类型(每种类型 30 个任务实例,来自同一患者池)。经过整理后,包含 508 个任务:463 个需要操作,45 个无需操作。静默完成上限:8.9%,从 41.7% 下降。在整个评估中保留 v1/v2-new 的划分,以区分两组不同的临床工作流。
参考图 1 说明:MAB-v3 中 1:1 上限之前(阴影)和之后(实心)的分支不平衡,以及静默完成上限从 41.7% 降至 8.9% 的情况。原始不平衡使得不作为成为 RL 的主导策略。
## 4 方法
### 4.1 环境设计
图 2 (https://arxiv.org/html/2607.01470#S4.F2) 显示了完整的 world feedback 循环。一个设计良好的 RL 环境应确保分数变化反映的是被测能力,而非环境不稳定、验证器错误或奖励捷径。我们的基准审计(第 3 节 (https://arxiv.org/html/2607.01470#S3))表明,MAB-v2 在多个维度上未能满足此要求。我们记录了 MAB-v3 解决的三个设计原则以及实践中观察到的两种失败模式。
**可重现、确定性的回合**:FHIR 环境针对 HAPI FHIR 服务器的固定快照运行,涵盖约≈100 个真实匿名患者。每次生成完全确定:相同查询总是返回相同响应,无服务器状态,回合在一秒内完成。这是 RL 所需的数千次生成的前提条件,并消除了环境不稳定性这一混淆因素——一种已知的失败模式,其中环境不稳定性导致无法归因于模型能力的失败。
**条件行为的奖励塑形**:world feedback 信号分解为:
`r = r_terminal + r_action + r_penalty` (1)
其中,`r_terminal = 1.0`(如果评分器通过);`r_action ∈ {0.10, 0.25}` 为正确的资源类型和 POST 结构提供部分学分;`r_spurious = -0.15` 惩罚在无动作任务上执行不相关的 POST;`r_skip = -0.20` 惩罚未使用工具即完成。部分学分和 `r_spurious` 是*刻意设计的选择*,而非临床世界的自然属性。没有部分学分,奖励景观在下达完全正确的医嘱之前是平坦的,使得早期探索无回报。没有 `r_spurious`,模型会学会总是行动,因为行动总能获得部分学分。这两个组件共同为动作和条件结构创建了梯度。
**可审计的评分器**:基于规则的验证器(1,340 行,实现了所有 20 个任务类型的医疗协议规范)本身就是反馈提供者:它查询智能体所使用的相同 FHIR 环境,然后根据临床标准检查 POST 负载。每次失败都可追溯到特定标准。这种可审计性使我们能够将壁钟错误和未记录的格式要求识别为评分器故障,而非模型能力差距。
**格式一致性**:训练、评估和 SFT 演示生成均使用 `named-function` 接口——现代 LLM 预训练时所使用的标准工具调用格式。我们刻意选择此接口而非原始 MAB 工具的基准特定格式(自由格式 HTTP 字符串:`GET http://...`、`POST http://...`、`FINISH([...])`),后者是为官方工具设计的古怪接口,并非 LLM 调用工具的标准方式。实际后果是:我们的前沿基线数字(表 1 (https://arxiv.org/html/2607.01470#S5.T1))是在官方工具上评估的,而训练模型的结果使用的是 `format`——这是一个必要的方法论说明。当我们尝试通过运行 GPT-5.5 通过我们的 `interface` 生成 SFT 教师演示时,只有约∼16% 的训练任务产生了通过的回合,确认了实现相同 FHIR 工具的两个工具会产生非常不同的通过率。我们的 `format` 要求更严格,正是因为它测试的是模型的原生工具使用能力,而非发出 HTTP 风格字符串的能力。
**观察到的失败模式——奖励黑客**:尽管有这些预防措施,我们在初始 RL 运行中观察到了奖励黑客。在未修正的 MAB-v2 上,GRPO 在 200 步内发现了 41.7% 的静默完成捷径,收敛于 0% 的动作分支通过率。模型找到了环境提供的最便宜的奖励路径——这是经典的评估设计缺陷,而非模型缺陷。MAB-v3 的 8.9% 上限关闭了此捷径。
**观察到的失败模式——能力上限**:Qwen3-8B 远小于任何在 MAB-v3 上评估的前沿模型;其零样本能力反映了非常不同的预训练分布。为了让 GRPO 在给定任务上提供有用的梯度信号,模型必须偶尔成功:全部失败的生成产生零优势和零梯度。我们通过 `frac_reward_zero_std`(每步骤中所有生成获得相同奖励的任务组比例)直接测量这一点。在 89 步训练运行中,平均值为 0.195(最大 0.750)——大约五分之一组完全没有提供梯度信号。我们的逐类型分析确认了原因:在评估的 19 个任务类型中,有 10 个的基模型 pass@1 为 0%,并且这些类型全部是 v1 查找或格式知识任务。RL 在整个训练过程中从这些类型获得零梯度。每任务优势归一化(`--per-task-norm`)防止高方差决策任务完全淹没零方差类型,但无法制造出不存在的梯度。
参考图 2 说明:临床 FHIR 智能体训练的 world feedback 循环。策略模型(Qwen3-8B + LoRA)生成 `actions`;FHIR 环境针对离线服务器快照执行这些操作并返回确定性响应。回合结束时,基于规则的验证器根据临床协议规范评估智能体的操作并返回奖励 `r`——不涉及每回合人工判断(领域专家的工作集中在一次性验证器设计中)。GRPO 利用此 world feedback 信号更新模型权重。多回合箱(虚线)显示了交互-观察循环;训练循环通过底部的 GRPO 闭合。
### 4.2 评估协议
我们将 MAB-v3 的 508 个任务按 80/20 拆分(401 训练,107 测试),按语料库、任务类型和动作标签分层。训练模型结果使用保留集,每个任务 4 次生成(温度 0.7)。我们报告 pass@1(平均通过率)、pass@4(无偏 Chen 等人估计器)、any_pass(≥≥1 次生成正确)和 all_pass(一致性:全部 4 次正确)。前沿模型结果使用所有 508 个任务,每个任务 1 个样本。基模型:Qwen3-8B (Qwen Team, 2025 (https://arxiv.org/html/2607.01470#bib.bib7))。
### 4.3 SFT:程序化蒸馏
我们通过程序化为 401 个训练任务构建基于规则的 SFT 演示:基于规则的智能体按任务类型应用已知临床决策,读取实际患者 FHIR 数据,并在需要操作时生成正确的 POST。每个回合都由验证器验证(奖励 ≥≥1.0);401 个中有 354 个通过。每个演示包括完整的工具调用序列——带有 FHIR Bundle 响应的 GET、带有接受消息的 POST、完成——采用评估时使用的确切 `format`。使用 LoRA(秩 64,αα=128)(Hu 等人, 2022 (https://arxiv.org/html/2607.01470#bib.bib6)) 微调 Qwen3-8B,仅助手损失,max_seq_length 14 000,批量大小 1,梯度累积 16,学习率 2×10^{-4},3 个时代。无每回合人工标签;领域专家的工作投入到了验证器设计中。相似文章
面向快速医疗互操作性资源(FHIR)中工具调用代理的强化学习
本文介绍了一种针对在FHIR医疗数据上运行的工具调用LLM代理的强化学习后训练流水线,在使用较小的Qwen3-8B模型时,在FHIR-AgentBench上达到了77%的答案正确率,而o4-mini仅为50%。
HealthAgentBench: 面向前沿AI智能体的统一真实医疗智能体环境基准套件
本文介绍了HealthAgentBench,一个包含54个真实医疗任务的套件,用于评估前沿AI智能体。研究发现,即使是最强的智能体(Codex GPT-5.5)也仅能达到约42%的成功率,凸显了巨大的改进空间。
一个基于生物医学工具库进行治疗推理的AI智能体
本文介绍了一个通过强化学习训练的AI智能体,能够推理自1939年以来所有FDA批准的药物,进行治疗建议,并整合疾病背景、合并症和禁忌症。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。
通过改变理性度来缓解RLHF中的认知偏差
本文提出了一种通过基于大型语言模型(LLM)对标注者可靠性的评估来动态调整理性度参数,从而缓解人类反馈强化学习(RLHF)中认知偏差的方法。