标签
本文研究了在FHIR环境中为临床协议执行任务使用来自世界反馈的强化学习,识别了诸如高静默完成上限和零梯度任务等结构性障碍,并引入了具有更低上限的MedAgentBench-v3。它表明,由于这些障碍,纯强化学习表现不如基于规则的SFT,并提出了一种结合SFT+RL的方法。
本文探讨了使用检索方法将FHIR问卷项目映射到LOINC代码的迁移学习,在小型评估集上比较了六种方法。
本文介绍了一种针对在FHIR医疗数据上运行的工具调用LLM代理的强化学习后训练流水线,在使用较小的Qwen3-8B模型时,在FHIR-AgentBench上达到了77%的答案正确率,而o4-mini仅为50%。