面向快速医疗互操作性资源(FHIR)中工具调用代理的强化学习
摘要
本文介绍了一种针对在FHIR医疗数据上运行的工具调用LLM代理的强化学习后训练流水线,在使用较小的Qwen3-8B模型时,在FHIR-AgentBench上达到了77%的答案正确率,而o4-mini仅为50%。
arXiv:2605.14126v1 公告类型:新
摘要:快速医疗互操作性资源(FHIR)是医疗数据可互操作交换的主流标准。在FHIR中,电子健康记录形成资源的有向图。回答FHIR上的临床有意义问题需要代理跨多种资源类型执行多步推理、过滤和聚合。先前研究表明,即使是工具增强的LLM代理(检索、代码执行、多轮规划)也常常选择错误的资源或违反遍历约束。我们在FHIR-AgentBench(一个基于真实医院数据的现实问答基准)的背景下研究这个问题,并将FHIR上的推理建模为可查询结构化图上的序列决策问题。我们实现了一个多轮CodeAct代理,并使用自定义框架和工具通过强化学习进行后训练。一个LLM裁判提供基于执行结果的奖励。与基于提示的封闭模型基线相比,RL后训练在强制执行数据完整性约束的同时提高了性能。实验表明,我们的方法使用更小更便宜的Qwen3-8B模型,将FHIR-AgentBench上的答案正确率从50%(o4-mini)提升至77%。我们提出了一个端到端的后训练流水线(环境构建、框架搭建、模型训练和自定义评估),能够可靠地改进结构化临床图上的多轮推理。
查看缓存全文
缓存时间: 2026/05/15 06:27
# 面向快速医疗互操作性资源(FHIR)中工具调用代理的强化学习 来源:https://arxiv.org/abs/2605.14126 查看 PDF (https://arxiv.org/pdf/2605.14126) > **摘要:**快速医疗互操作性资源(FHIR)是医疗数据互操作性交换的主流标准。在 FHIR 中,电子健康记录构成一个资源的有向图。要在 FHIR 上回答具有临床意义的问题,代理需要跨多种资源类型执行多步推理、过滤和聚合。先前的研究表明,即使是工具增强的大语言模型代理(检索、代码执行、多轮规划)也常常选择错误的资源或违反遍历约束。我们在 FHIR-AgentBench 的背景下研究这一问题——这是一个针对真实世界医院数据中现实问题回答的基准测试——并将 FHIR 上的推理框架化为一个关于可查询结构化图的序列决策问题。我们实现了一个多轮 CodeAct 代理,并通过强化学习使用自定义工具和运行框架对其进行后训练。一个 LLM 判断器提供执行依据的奖励。与基于提示的闭源模型基线相比,RL 后训练在强制执行数据完整性约束的同时提升了性能。实验上,我们的方法在使用更小、更便宜的 Qwen3-8B 模型时,将 FHIR-AgentBench 上的答案正确率从 50%(o4-mini)提升至 77%。我们提出了一个端到端的后训练流程(环境构建、运行框架构建、模型训练和自定义评估),能够可靠地改进对结构化临床图的多轮推理能力。 ## 提交历史 来自:Marius Knorr [查看邮件 (https://arxiv.org/show-email/3c34a810/2605.14126)] **[v1]** 2026年5月13日,星期三 21:27:21 UTC(1,359 KB)
相似文章
面向低延迟多智能体工具调用的有状态推理架构
本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。
@omarsar0: 苹果的一篇很棒的论文。大多数对工具调用智能体的评估都发生在轨迹结束之后。但那时错误的调用早已发出。这篇新论文将评估移入执行循环中。一个专门的审稿智能体在执行前检查每个临时工具调用。如果有问题,它注入反馈,主智能体进行修正。为了量化修正与新错误之间的权衡,他们提出了“有益性-有害性”指标。有益性衡量基础错误被修复的百分比;有害性衡量因审稿而降低正确调用质量的比例。在 BFCL 上的结果:无关检测准确率提升 5.5%(从 84.9% 到 90.4%),相关检测提升 1.6%,且无需重新训练基础智能体。在 τ²-Bench 多轮任务上提升 7.1%(从 48.7% 到 55.8%)。推理模型审稿者比 GPT-4o 获得 3:1 的收益风险比,而 GPT-4o 为 2.1:1。加入 GEPA 提示优化可再提升 1.5–2.8%。为什么这很重要?你可以保持基础工具调用智能体不变,仅通过改进审稿者即可实现显著的准确性提升。对审稿者的模型选择和提示优化成为独立的生产杠杆。论文链接:https://arxiv.org/abs/2604.27233 在我们的学院学习如何构建高效的 AI 智能体:https://academy.dair.ai
这篇来自苹果的研究论文介绍了“强化智能体”(Reinforced Agent)方法,通过使用专门的审稿智能体在实时执行过程中修正工具调用错误,将评估纳入执行循环。它在 BFCL 和 τ²-Bench 等基准测试上展示了显著的准确性提升,而无需重新训练基础智能体。
使用 Prime-RL 后训练构建快速准确的智能体(22 分钟阅读)
Ramp 介绍了一项案例研究,利用强化学习后训练构建了 Fast Ask,这是一种专门的电子表格检索智能体,与通用模型相比,它提高了准确性并降低了延迟。
面向在线患者咨询的可操作分诊分类的小样本大语言模型
本文探讨了使用小样本提示的大语言模型对在线患者咨询进行可操作分诊分类,分为自我护理、预约就诊、紧急临床审查或急诊转诊。最佳模型(Claude Haiku 4.5,12次小样本提示)的macro-F1达到0.475,超过了有监督基线,但作者得出结论:LLMs可以支持分诊优先级排序和选择性人工审核,但不能自主部署。
关注工具故障:实现医疗代理的协同工具增益
本文针对医疗AI代理中的工具故障问题,提出了一种基于GRPO的强化学习框架,利用实例级选择、分歧感知协同学习和熵引导采样来纠正错误的工具共识,并在七个医疗基准测试中提高了可靠性。