ClaimDiff-RL:通过视觉声明比较进行细粒度描述强化学习

arXiv cs.LG 论文

摘要

介绍了ClaimDiff-RL,一种用于长格式图像描述的强化学习框架,该框架使用类型化、可验证的声明差异作为奖励单元,分别衡量和平衡幻觉与缺失事实,从而提高忠实度和覆盖率。

arXiv:2605.20278v1 Announce Type: new 摘要:长格式图像描述暴露了强化学习中的奖励粒度问题:描述被作为整体序列进行评判,而重要错误发生在单个视觉声明层面上。一个好的密集描述应当既忠实又信息丰富,避免幻觉同时不遗漏显著细节。然而,成对偏好、基于参考的指标以及整体标量奖励将这些局部错误压缩成单一的序列级信号,掩盖了事实性与覆盖率之间的权衡。我们提出了ClaimDiff-RL,一个使用参考条件化原子声明差异作为描述强化学习奖励单元的框架。给定一张图像、一个演员描述和一个参考描述,多模态判断器枚举视觉上可验证的差异,对照图像验证每个差异,分配开放词汇的错误类型和严重程度,并生成每个差异的统计信息用于奖励组成。这使得幻觉声明和遗漏显著事实可以分别衡量和调整。实验表明,整体标量奖励可能通过增加缺失事实来减少幻觉,而ClaimDiff-RL则暴露了这种忠实度与覆盖率的权衡,并实现了更平衡的操作点。在一个包含160张图像的人工标注诊断基准、公开描述基准和VQA基准上,ClaimDiff-RL改善了幻觉与缺失事实的平衡,保持了通用能力,甚至在几个细粒度能力维度(如物体计数、空间关系和场景识别)上超越了Gemini-3-Pro-Preview。这些结果表明,类型化、可验证的声明差异是进行细粒度且可诊断的描述强化学习的有效奖励单元。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:21

# ClaimDiff-RL: 通过视觉主张比较实现细粒度字幕强化学习

**来源:** https://arxiv.org/html/2605.20278

田乐 Li¹ 沈旭阳² 马岩² 郭荣鑫² 陈少祥² 陈嘉诚² 王浩辰² 唐宏阳² 周宇聪² 余程¹

¹香港中文大学 ²MiniMax

tianleli@link\.cuhk\.edu\.hk
shenxuyang@minimaxi\.com
chengyu@cse\.cuhk\.edu\.hk

https://github.com/ltl3A87/ClaimDiff-RL

###### 摘要

长文本图像字幕生成揭示了强化学习中的一个奖励粒度问题:字幕被作为整个序列来评判,而重要的错误发生在单个视觉主张的层面。一个好的密集字幕应该既忠实又信息丰富,既要避免幻觉,又不能遗漏显著细节。然而,成对偏好、基于参考的指标以及整体标量奖励将这些局部错误压缩成一个单一的序列级信号,掩盖了事实性和覆盖范围之间的权衡。我们提出 **ClaimDiff-RL**,一个使用参考条件化的原子主张差异作为字幕强化学习奖励单元的新框架。给定一张图像、一个演员(actor)字幕和一个参考字幕,一个多模态评判器列举出视觉上可验证的差异,针对图像验证每个差异,分配开放词汇的错误类型和严重程度,并生成每个差异的统计信息用于奖励合成。这使得幻觉主张和遗漏的重要事实可以分别被测量和调整。实验表明,整体标量奖励可能会通过增加遗漏事实来减少幻觉,而 ClaimDiff-RL 则暴露了这种忠实性与覆盖范围之间的权衡,并实现了更均衡的运作点。在一个包含 160 张图像的人工标注诊断基准、公开的字幕生成基准和 VQA 基准上,ClaimDiff-RL 改善了幻觉与遗漏事实之间的平衡,保留了通用能力,甚至在某些细粒度能力维度(如物体计数、空间关系和场景识别)上超越了 Gemini-3-Pro-Preview。这些结果表明,类型化、可验证的主张差异是用于细粒度且可诊断的字幕强化学习的有效奖励单元。

## 1 引言

*请参考图 1*
图 1:ClaimDiff-RL 概览。与直接的标量评判不同,ClaimDiff-RL 将演员-参考视觉差异针对图像进行验证,并将类型化的单方错误合成为标量奖励,使得幻觉-覆盖范围之间的权衡变得明确。

长文本图像字幕生成揭示了开放端生成任务中强化学习的一个奖励粒度问题。与那些可以通过单一答案概括正确性的任务不同,一个密集字幕由许多关于物体、属性、数量、空间关系、OCR 文本、身份以及细粒度场景细节的局部视觉主张组成。早期的字幕生成目标和指标,如 CIDEr (Vedantam et al., 2014)、SPICE (Anderson et al., 2016) 和自关键序列训练 (Rennie et al., 2017),通过基于参考的评估信号优化字幕模型,取得了重要进展。然而,长文本字幕生成需要一个比单纯参考相似性更精细的目标。一个字幕可以通过变得过于保守来避免幻觉,也可以通过添加会引入无依据主张的细节来提高覆盖范围。这种紧张关系与图像字幕和 LVLM 评估中研究的幻觉问题密切相关 (Rohrbach et al., 2018; Li et al., 2023)。因此,一个好的密集字幕应该既忠实又信息丰富:它应该避免无依据的视觉主张,同时仍然覆盖重要的图像内容 (Wang et al., 2025b; Zhong et al., 2025)。

大多数现有的奖励设计仍然在序列级别对字幕进行评分。成对偏好和 RLHF 风格的方法比较完整的输出或学习整体奖励模型 (Ouyang et al., 2022; Rafailov et al., 2023);基于 LLM 的字幕评估器,如 CLAIR (Chan et al., 2023),以及 MLLM-as-judge 方法,如 VIEScore 和 Prometheus-Vision (Ku et al., 2023; Lee et al., 2024),表明强大的基础模型可以提供有用的标量判断和解释。然而,直接的标量判断作为奖励信号仍然不透明:一个更高的分数并不能揭示字幕是否变得更具视觉依据、细节更少,或者只是更安全。即使提供了参考字幕,这个问题仍然存在。如图 1 所示,*带参考的整体强化学习* 和 *不带参考的整体强化学习* 都执行直接的标量判断;唯一的区别是评判器是否看到了一个比较锚点。在这两种情况下,幻觉、遗漏事实和正确的额外细节都被压缩成一个奖励。我们的实验表明,这种压缩可能会鼓励保守的欠字幕生成,即通过省略更多显著细节来减少幻觉。

最近的工作已经开始超越单一的字幕分数。CapRL (Xing et al., 2025) 通过下游效用定义字幕质量,使用一个无视觉的 LLM 是否能根据字幕回答问题作为可验证奖励。SC-Captioner (Zhang et al., 2025) 使用场景图解析将预测字幕和参考字幕分解为物体、属性和关系集合,并通过比较添加和移除的元素来奖励自我纠正。这些方法表明,字幕奖励受益于更结构化的监督。然而,基于效用的奖励仍然可能隐藏哪些视觉主张导致了成功或失败,而固定的场景图模式可能会遗漏开放式的视觉维度,如 OCR、风格、身份、光照、重复、歧义和细粒度布局。缺失的不仅仅是更强的评判器,而是一个更好的评判接口:一个在合成标量奖励之前,将全局字幕评分转变为局部的、基于图像验证的接口。

我们提出 **ClaimDiff-RL**,一个字幕强化学习框架,它保持最终奖励与标准标量奖励优化兼容,但将奖励单元从整体字幕分数改变为经过图像验证的主张差异。给定一张图像、一个演员字幕和一个参考字幕,一个多模态评判器识别演员-参考差异,针对图像验证每个差异,分配单方类型化的错误,并将得到的统计信息合成为标量奖励。参考字幕仅用作比较锚点,而非穷举的 Ground Truth。我们的贡献有三方面:

- • 我们提出**主张差异评判**作为长文本字幕强化学习的细粒度奖励接口。评判器识别演员-参考视觉差异,针对图像验证它们,并分配单方类型化的错误。
- • 我们设计了**相对**和**仅演员**的奖励组合,这些奖励来自相同的类型化错误统计。这些奖励在忠实性-覆盖范围前沿上暴露了不同的运作点。
- • 我们表明,整体奖励通常通过增加遗漏来减少幻觉,而 ClaimDiff-RL 提供了更可控的权衡,并保持或改善了字幕生成和 VQA 能力。

## 2 相关工作

#### 图像字幕的自动指标
图像字幕传统上使用基于参考的指标进行评估,如 BLEU (Papineni et al., 2002)、METEOR (Banerjee and Lavie, 2005)、CIDEr (Vedantam et al., 2014) 和 SPICE (Anderson et al., 2016)。这些指标提供了可扩展的评估信号,并已被用作优化目标,但它们与长文本密集字幕生成不太匹配,因为在长文本密集字幕中,许多有效的字幕在用词、顺序、长度和详细程度方面可能存在差异。基于嵌入或模型的指标,如 CLIPScore (Hessel et al., 2021) 和 CAPTURE (Dong et al., 2024),超越了表面重叠,而 LLM 或 VLM-as-judge 评估器,如 CLAIR (Chan et al., 2023)、VIEScore (Ku et al., 2023) 和 Prometheus-Vision (Lee et al., 2024),提供了更强的语义判断。然而,这些方法仍然常常将字幕质量聚合为一个整体分数,使得难以判断一个分数是反映了更少的幻觉、更好的覆盖范围,还是仅仅更安全、更短的描述。

#### 字幕质量的细粒度诊断
最近的评估工作越来越多地将字幕质量视为一个局部视觉主张的集合,而非一个单一的句子级属性。关注幻觉的指标和基准,如 CHAIR (Rohrbach et al., 2018)、POPE (Li et al., 2023)、HallusionBench (Guan et al., 2023) 和 MMHal-Bench (Sun et al., 2023),衡量生成的描述是否包含无依据的视觉内容。基于属性和问题的基准,如 DLC-Bench (Lian et al., 2025)、GAR-Bench (Wang et al., 2025a)、Capability (Liu et al., 2025) 和 CaptionQA (Yang et al., 2025),通过局部属性或基于图像的问题进一步评估细粒度的正确性、覆盖范围和有用性。这些工作促使了这样一种观点:密集字幕应该在视觉主张的层面进行评估。ClaimDiff-RL 遵循这一方向,但在训练奖励内部使用细粒度诊断,而不仅仅作为评估协议。

#### 字幕强化学习的奖励构建
用于图像字幕的强化学习由自关键序列训练推广,该方法使用策略梯度优化 CIDEr 等指标 (Rennie et al., 2017)。最近的密集字幕强化学习方法使用更强的监督:CapRL (Xing et al., 2025) 使用下游 QA 效用作为可验证的标量奖励,而 SC-Captioner (Zhang et al., 2025) 从解析出的物体、属性和关系集合中构建分解奖励。ClaimDiff-RL 遵循分解奖励的方向,但将固定模式解析替换为开放词汇的演员-参考差异验证,并将类型化的单方错误合成为相对或仅演员的奖励。

## 3 方法:用于字幕强化学习的主张差异奖励

ClaimDiff-RL 为字幕强化学习优化一个标量奖励,但通过分解评判而非直接整体评分来获得这个标量。如图 2 所示,给定一张图像 \(I\)、一个演员字幕 \(A \sim \pi_{\theta}(\cdot \mid I)\) 和一个参考字幕 \(B\),一个多模态评判器首先识别具体的演员-参考视觉差异,针对图像验证每个差异,并分别将类型化错误分配给演员方和参考方。参考字幕不被视为穷举的 Ground Truth。它作为一个提出可能视觉轴的比较锚点,而图像仍然是验证者。这种设计分离了在直接标量评判中被混淆的两个角色。评判器在视觉主张差异的层面执行局部验证,而奖励函数决定如何将得到的证据聚合为一个标量奖励。相同的评判器输出支持两种奖励组合。**相对奖励**将演员方错误与参考方错误进行比较。**仅演员奖励**从奖励中移除参考方错误计数,并仅对已发现差异上的演员方错误进行惩罚。这两种奖励仍然是参考条件化的,因为参考有助于定义比较轴。

*请参考图 2*
图 2:ClaimDiff-RL 概览。演员-参考差异针对图像进行验证,以产生单方类型化错误,这些错误被合成为相对或仅演员的标量奖励,用于组归一化强化学习优化。

### 3.1 主张差异评判

给定 \((I, A, B)\),我们用结构化的提示模板查询一个多模态评判器 \(\mathcal{J}\)。评判器返回一个包含 \(D\) 个基于图像差异的列表 \(\mathcal{D}(I, A, B) = \{d_i\}_{i=1}^D\)。每个差异 \(d_i\) 包含一个视觉方面、演员方主张、参考方主张、基于图像的判断以及单方错误描述:

\[
d_i = \left( a_i,\ c_i^A,\ c_i^B,\ j_i,\ \mathbf{e}_i^A,\ \mathbf{e}_i^B \right).
\]

这里 \(a_i\) 是一个自由文本的方面,例如“遮阳篷颜色”、“椅子数量”、“菜单文本”或“背景物体细节”。判断 \(j_i \in \{A,\ B,\ \text{both\_wrong},\ \text{both\_supported}\}\) 指示哪一方得到了图像的支持。对于字幕 \(X \in \{A, B\}\) 的单方错误描述是:
\[
\mathbf{e}_i^X = (t_i^X,\ r_i^X,\ s_i^X),
\]
其中 \(t_i^X\) 是一个开放词汇的错误类型,\(r_i^X\) 是一个自由文本的理由,\(s_i^X\) 是一个可选的严重性标签。如果字幕 \(X\) 在差异 \(i\) 上没有错误,我们设置 \(t_i^X = \texttt{NONE}\)。

评判器提示将差异发现与视觉验证分开。它首先利用 \(A\) 和 \(B\) 之间的文本对比来高效地识别候选差异,这减少了评判器的搜索空间。然后,它针对图像验证每个候选差异,因此参考字幕不被视为 Ground Truth。对于每一方,评判器分配一个特定的开放词汇错误类型,最好是复合形式,如 `color_hallucination`、`count_mismatch` 或 `detail_omission`。提示还将两种常见的奖励操纵模式视为错误:当图像支持确定主张时的模棱两可,以及重复表述相同内容而不增加新信息的重复。

这个接口将参考字幕用作一个提议机制,而非穷举的 Ground Truth。文本比较提出候选的不一致轴,而图像验证决定正确性。因此,评判器可以表示演员方被支持、参考方被支持、双方都错或双方都对的多种情况。完整的评判器提示和输出格式见附录 D。

### 3.2 标量奖励合成

从评判器输出中,我们计算单方错误统计。字幕 \(X \in \{A, B\}\) 的未加权错误计数为:
\[
E_X = \sum_{i=1}^D \mathbf{1}\!\left[ t_i^X \neq \texttt{NONE} \right].
\]

我们还定义一个严重性加权错误计数:
\[
E_X^w = \sum_{i=1}^D w(s_i^X) \cdot \mathbf{1}[t_i^X \neq \texttt{NONE}],
\]

相似文章

BalCapRL:一种用于基于强化学习的 MLLM 图像描述生成的平衡框架

Hugging Face Daily Papers

本文介绍了 BalCapRL,这是一种针对多模态大语言模型(MLLM)的平衡强化学习框架,旨在联合优化图像描述生成中的准确性、覆盖率和语言质量。通过奖励解耦和长度条件屏蔽来解决实用性与流畅性之间的权衡,该方法在性能上优于现有方法。

通过闭环验证推理解锁复杂视觉生成

Hugging Face Daily Papers

介绍CLVR(闭环视觉推理),一种将文本到图像生成从单步过程重构为闭环多步视觉推理方法的框架,使用VLM控制器和扩散模型,在组合提示上实现了改进的性能。

视频模型可通过可验证奖励进行推理

Hugging Face Daily Papers

VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。