SDR：用于放射学报告生成的集合距离奖励

arXiv cs.AI 2026/06/02 04:00 论文

摘要

本文提出用于胸部X光报告生成中强化学习的集合距离奖励，该方法利用生成报告与参考报告之间基于嵌入的集合到集合距离。通过GRPO使用这些奖励进行后训练，在监督微调和精确匹配奖励上表现持续更优，并实现了高效的测试时扩展。

arXiv:2606.00440v1 公告类型：新 \n摘要：基于可验证奖励的强化学习已迅速推进了视觉-语言模型中的推理能力。然而，对于胸部X光报告生成，标准奖励（如精确匹配准确率和步骤级过程）并不适用，因为报告由无序且正交的发现组成，而非因果推理链。我们通过基于集合的视角来解决这一差距：将每份报告拆分为句子，并由冻结的句子转换器嵌入，得到无序的嵌入集合。我们提出使用生成嵌入与参考嵌入之间的集合到集合距离作为连续的、置换不变的奖励。在两个数据集和三个视觉-语言模型（Qwen3-VL-2B/4B，Gemma3-4B）上，通过GRPO使用基于集合到集合距离的奖励进行后训练，在所有主要指标（BERTScore、RadGraph F1和CheXbert F1，平均相对改进分别约为6.80%、7.82%和4.45%）上持续优于监督微调和精确匹配GRPO。相同的集合距离还实现了测试时最佳N选一选择：通过候选与训练报告嵌入之间的距离进行评分，在我们的训练模型以及三个闭源LLM（Mistral-Small、Gemini-2.5 Flash-Lite、GPT-4o-mini）上均优于随机选择，BERTScore平均相对改进约16.4%。作为流信号使用时，它们支持更高效的测试时扩展：在生成过程中修剪低分候选，可减少超过50%的生成令牌，同时保留完整最佳N选一选择的发现质量。综合这些结果，集合距离奖励被确立为胸部X光报告生成中后训练和测试时扩展的统一信号。我们的代码已公开 \href{https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA}{提供}。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:47

# SDR: 用于放射学报告生成的集距奖励

来源: https://arxiv.org/html/2606.00440

H. Ibrahim Gulluk¹ [email protected] & Max Van Puyvelde∗²,³ [email protected] & Wim Van Criekinge³ [email protected] & Olivier Gevaert² [email protected]
¹斯坦福大学电气工程系 ²斯坦福大学医学院生物医学数据科学系 ³根特大学数学建模、统计与生物信息学系

###### 摘要

基于可验证奖励的强化学习已迅速推进了视觉语言模型中的推理能力。然而，对于胸部X光报告生成，标准的奖励（即精确匹配准确率和步骤级过程）并不兼容，因为报告由无序且正交的发现组成，而非因果推理链条。我们通过一种基于集合的视角来解决这一差距：每份报告被拆分为句子，并由一个冻结的句子变换器嵌入，产生无序的嵌入集。我们提出将生成的嵌入与参考嵌入之间的集到集距离作为连续的、置换不变的奖励。在两个数据集和三个视觉语言模型（Qwen3-VL-2B/4B、Gemma3-4B）上，通过GRPO进行基于集到集距离奖励的后训练在所有主要指标（BERTScore、RadGraph F1和CheXbert F1，相对改进分别平均为%6.80、%7.82和%4.45）上持续优于监督微调和精确匹配GRPO。相同的集距离还支持测试时的最佳N中选一：根据候选集与训练报告嵌入的距离对其评分，在我们的训练模型以及三个闭源LLM（Mistral-Small、Gemini-2.5 Flash-Lite、GPT-4o-mini）上均优于随机选择，在BERTScore上平均相对改进为%16.4。作为流信号使用，它们支持一种更高效的测试时缩放形式：在生成过程中剪除低评分候选，可将生成的token数减少50%以上，同时保持完整最佳N中选一的发现质量。这些结果共同确立了集距奖励作为胸部X光报告生成中后训练和测试时缩放的统一信号。我们的代码已公开提供（https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA）。

## 1 引言

医学图像报告在临床工作流中扮演着核心角色，包括诊断、治疗计划和患者监测。因此，使用AI模型提高医学图像报告的效率和准确性已引起越来越多的关注。研究人员已开发出用于多种成像模态的医学图像报告生成的视觉语言模型（Li等，2025 (https://arxiv.org/html/2606.00440#bib.bib4); Liu等，2021 (https://arxiv.org/html/2606.00440#bib.bib5); Hamamci等，2024 (https://arxiv.org/html/2606.00440#bib.bib6)）。与其他医学成像模态类似，胸部X光报告生成构成临床工作流的关键组成部分，因为胸部放射学是医学中最常见且最广泛可用的成像技术之一。辅助报告生成系统有潜力减轻放射科医生的工作量，同时提高报告的一致性和准确性。因此，使用视觉语言模型进行胸部X光报告生成已被广泛研究（Liu等，2019 (https://arxiv.org/html/2606.00440#bib.bib1); Li等，2023b (https://arxiv.org/html/2606.00440#bib.bib2); Endo等，2021 (https://arxiv.org/html/2606.00440#bib.bib3)）。此外，最近纯语言和视觉语言模型推理能力的进步已展示了在复杂任务（如数学问题求解、编码和医学视觉问答）上的改进性能（Shao等，2024 (https://arxiv.org/html/2606.00440#bib.bib7); Luo等，2024 (https://arxiv.org/html/2606.00440#bib.bib9); Li等，2023a (https://arxiv.org/html/2606.00440#bib.bib8); Wu等，2025 (https://arxiv.org/html/2606.00440#bib.bib10)）。基于强化学习的微调在进一步增强这些模型的推理能力方面显示出有前景的结果（Rafailov等，2023 (https://arxiv.org/html/2606.00440#bib.bib11); Schulman等，2017 (https://arxiv.org/html/2606.00440#bib.bib12); Shao等，2024 (https://arxiv.org/html/2606.00440#bib.bib7)）。具体而言，GRPO已被证明在不需要显式的偏好和非偏好对的情况下能够达到有竞争力的性能。然而，这种基于奖励的强化学习提出了关于奖励函数设计的重要问题，即如何根据语言模型生成的输出来适当地奖励或惩罚它。基于输出正确性的二元奖励函数在奖励设计中常用。然而，这种离散的监督可能引入噪声，这促使了在最终答案错误时仍对中间步骤或整个生成过程分配部分奖励的方法。这导致了过程奖励模型的开发（Khalifa等，2025 (https://arxiv.org/html/2606.00440#bib.bib13); Zhang等，2025b (https://arxiv.org/html/2606.00440#bib.bib14); Lightman等，2024 (https://arxiv.org/html/2606.00440#bib.bib15)）。然而，对推理过程中的每个步骤分配奖励可能并不可行，因为步骤级标注通常不可用，并且使用外部来源验证每个步骤在计算上可能很昂贵。此外，在胸部X光报告中，临床医生提供的发现不一定形成可以被解释为思维链的因果或顺序结构，使得逐步验证意义不大。相反，这些发现通常彼此独立，并且可能以任意顺序呈现。为了解决这些挑战，我们提出了一种基于集距的奖励公式。具体而言，我们从真实报告和生成报告中获取句子的嵌入，并计算这两组向量之间的距离。然后将这些距离用作GRPO训练期间的奖励信号。通过这种方式，我们提供了一个连续的奖励信号，该信号考虑了胸部X光发现的无序和独立性质。

##### 贡献。我们的主要贡献总结如下：

- **用于GRPO后训练的集距奖励函数。** 我们通过将每份报告视为句子嵌入的无序集，并使用集到集距离（基于余弦距离的Chamfer和Hausdorff）作为GRPO期间的连续、置换不变奖励信号，解决了放射学报告过程奖励建模不可行的问题。在三个视觉语言骨干模型和两个报告生成基准上，我们的集距奖励在评估指标上持续优于SFT基线和离散的精确匹配GRPO后训练。
- **集距引导的测试时响应选择。** 我们进一步将同一族集距离用作测试时缩放/最佳N中选一信号：对于每张测试图像，我们从模型中采样K个候选报告，并选择其嵌入集最接近训练报告嵌入集的候选。这种推理时程序在多个候选（每个样本）上平均，改进了闭源通用LLM（GPT、Gemini、Mistral）相对于随机选择基线的性能。
- **基于距离的生成过程中剪枝。** 作为上述的扩展，我们在推理期间计算部分生成文本与训练分布之间的运行集距离，并在候选完全生成之前剪除距离超过阈值的候选。这种提前停止方案以显著减少的生成token数量获得了可比较的质量，表明驱动我们奖励的同一集距信号也可用于降低测试时缩放的计算成本。

## 2 相关工作

已经提出了医学视觉语言模型来扩展AI在医学领域的应用。MedViLL，一个基于BERT的模型，由Moon等人（2022 (https://arxiv.org/html/2606.00440#bib.bib22)）引入，能够执行医学诊断、图像-报告检索和医学视觉问答等任务。Med-Flamingo将Flamingo架构适应于医学图像-文本数据，用于医学VQA和理由生成等任务（Moore等人，2023 (https://arxiv.org/html/2606.00440#bib.bib23)）。随着通用模型推理能力的提升，增强医学视觉语言模型的推理已引起关注。MedReason数据集被提出以增强这一领域（Wu等人，2025 (https://arxiv.org/html/2606.00440#bib.bib10)）。Med-R1模型是在多种医学图像模态上使用强化学习训练的通用视觉语言模型（Lai等人，2026 (https://arxiv.org/html/2606.00440#bib.bib25)）。类似地，MedVLM-R1使用GRPO训练，增强了医学图像推理（Pan等人，2025 (https://arxiv.org/html/2606.00440#bib.bib26)）。除了医学模型之外，RL后训练中的奖励设计，特别是对于GRPO，仍然是一个活跃的研究领域。虽然基于离散正确性的奖励显示出强劲的收益，特别是在数学推理中（Shao等人，2024 (https://arxiv.org/html/2606.00440#bib.bib7)），但正在研究连续奖励以降低二元监督引入的噪声，因为部分正确的中间推理步骤即使最终答案错误也可能仍有价值（Khalifa等人，2025 (https://arxiv.org/html/2606.00440#bib.bib13)）。为了解决这些挑战，作者提出了推理驱动的过程奖励建模（Sh等人，2025 (https://arxiv.org/html/2606.00440#bib.bib27)）。引入熵正则化过程奖励建模（ER-PRM）（Zhang等人，2024 (https://arxiv.org/html/2606.00440#bib.bib28)）以添加一个KL正则化的马尔可夫决策过程，确保模型在过程奖励建模期间保持接近其初始分布。另一方面，EDU-PRM应用熵驱动采样来生成推理步骤（Cao等人，2025 (https://arxiv.org/html/2606.00440#bib.bib29)）。

## 3 方法

我们首先在胸部X光报告上使用SFT微调视觉语言模型，然后通过组相对策略优化（GRPO）（Shao等人，2024 (https://arxiv.org/html/2606.00440#bib.bib7)）对它们进行后训练，包括一个将输出约束为结构化推理模板的格式奖励，以及额外的基于集的语义奖励，该奖励根据参考报告对生成报告的临床内容进行评分。语义奖励背后的关键设计选择是将报告的每个部分视为句子嵌入的无序集，而不是单个序列，反映了观察到的胸部X光发现的置换不变性和通常的正交性，而不是形成因果链。

### 3.1 句子级报告表示

发现：左胸几乎完全不透明，推测与胸膜基底癌进一步扩大有关。左肺可视化充气部分显示广泛的间质和空气空间密度，可能由共存的不张或肺炎引起。右叶大体清晰，但肺容积低。心脏大小可能增大。右侧Mediport导管尖端位于上腔静脉。印象：左侧胸膜基底肿块间隔恶化，左胸几乎完全不透明。左肺充气部分的肺炎和/或不张未被排除。右肺大体清晰。可能的心脏增大。

请参考图注

胸部X光 → SentenceTransformer（冻结）→ all-mpnet-base-v2 → e₁^F, e₂^F, e₃^F, e₄^F, e₅^F, e₁^I, e₂^I, e₃^I, e₄^I → E(r) ⊂ ℝᵈ

图1：胸部X光报告的句子级编码。每个研究配对一张X光片和一份包含发现与印象部分的自由文本报告。我们将两个部分拆分为单个句子，并使用冻结的预训练all-mpnet-base-v2句子变换器独立嵌入每个句子，每个句子产生一个d维向量。由此产生的无序句子嵌入集合E(r) = {e₁^F, ..., e₅^F, e₁^I, ..., e₄^I} ⊂ ℝᵈ 在我们的集奖励管道中用作真实报告表示。

一份胸部X光报告y包含两个部分：发现部分y^F和印象部分y^I。我们使用标准的句子分割器将每个部分拆分为单个句子，得到y^F = (s₁^F, ..., s_{n_F}^F)和y^I = (s₁^I, ..., s_{n_I}^I)，其中句子数量n_F, n_I ∈ ℕ可能因研究而异。每个句子s通过一个冻结的预训练句子变换器E_φ（特别是all-mpnet-base-v2（Reimers and Gurevych，2019 (https://arxiv.org/html/2606.00440#bib.bib30)））映射到一个固定维度的语义嵌入e = E_φ(s) ∈ ℝᵈ。然后报告由两组嵌入表示：
E^F(y) = {E_φ(s_i^F) : 1 ≤ i ≤ n_F}, E^I(y) = {E_φ(s_j^I) : 1 ≤ j ≤ n_I}, (1)
两者都是ℝᵈ的子集（图1 (https://arxiv.org/html/2606.00440#S3.F1)）。由于E^F(y)和E^I(y)是集合，它们在底层句子的排列下保持不变，这捕捉了临床直觉：各发现列举的顺序没有诊断意义。在本节中，不带帽的符号y表示与输入X光配对的真实参考报告，ŷ表示模型生成的报告。

##### 格式奖励。
为了使生成的报告易于解析，我们要求输出ŷ遵循模板ŷ^F ŷ^I，其中ŷ^F和ŷ^I分别是生成的发现和印象，每个标签恰好出现一次，按指定顺序，并包含非空内容。格式奖励是二值指示器R_fmt(ŷ) = valid(ŷ) ∈ {0,1}；当R_fmt=1时，两个部分字符串可以从ŷ中无歧义地提取出来，并馈入下面定义的语义奖励。

### 3.2 基于集的语义奖励

给定一份生成的报告ŷ，其部分ŷ^F和ŷ^I已按照上述模板提取出来，我们使用与公式(1)中参考报告完全相同的编码器E_φ来形成它们的句子嵌入集E^F(ŷ)和E^I(ŷ)。这样，对于每个训练样本，我们得到两对嵌入集：(E^F(ŷ), E^F(y))，(E^I(ŷ), E^I(y))，

SDR：用于放射学报告生成的集合距离奖励

相似文章

通过奖励倾斜分布匹配强化少步生成器

AnchorDiff: 拓扑感知的掩码扩散与基于置信度的重写用于放射学报告生成

超越 GRPO 与策略内蒸馏：语言模型后训练的经验性“稀疏至稠密”奖励原则

RADS：基于强化学习的样本选择提升低资源、不平衡临床场景下的迁移学习效果

基于Cramér距离的分布强化学习

提交意见反馈