标签
本文提出用于胸部X光报告生成中强化学习的集合距离奖励,该方法利用生成报告与参考报告之间基于嵌入的集合到集合距离。通过GRPO使用这些奖励进行后训练,在监督微调和精确匹配奖励上表现持续更优,并实现了高效的测试时扩展。