set-distance-rewards

标签

Cards List
#set-distance-rewards

SDR:用于放射学报告生成的集合距离奖励

arXiv cs.AI · 2026-06-02 缓存

本文提出用于胸部X光报告生成中强化学习的集合距离奖励,该方法利用生成报告与参考报告之间基于嵌入的集合到集合距离。通过GRPO使用这些奖励进行后训练,在监督微调和精确匹配奖励上表现持续更优,并实现了高效的测试时扩展。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈