set-distance-rewards

#set-distance-rewards

SDR：用于放射学报告生成的集合距离奖励

arXiv cs.AI ↗ · 2026-06-02 缓存

本文提出用于胸部X光报告生成中强化学习的集合距离奖励，该方法利用生成报告与参考报告之间基于嵌入的集合到集合距离。通过GRPO使用这些奖励进行后训练，在监督微调和精确匹配奖励上表现持续更优，并实现了高效的测试时扩展。

0 人收藏 0 人点赞