DeltaRubric:通过联合规划与验证实现生成式多模态奖励建模

Hugging Face Daily Papers 论文

摘要

DeltaRubric 是一篇研究论文,介绍了一种使用单一多模态大语言模型(MLLM)的两步多模态偏好评估方法,通过联合规划与验证来提高奖励建模的可靠性。

对齐多模态大语言模型(MLLMs)需要可靠的奖励模型,然而现有的单步评估器往往存在“懒惰判断”的问题,即过度依赖语言先验而忽略细粒度的视觉验证。虽然在纯文本设置中基于标准(rubric-based)的评估可以缓解这些偏差,但将其扩展到多模态任务时,受限于视觉推理的复杂性而遭遇瓶颈。不同回答之间的关键差异往往取决于特定实例的视觉细节。稳健的评估要求动态合成能够隔离空间和事实差异的评估标准。为此,我们引入了 DeltaRubric,这是一种在单一 MLLM 中将多模态偏好评估重构为“规划-执行”过程的方法。DeltaRubric 分为两步运行:首先充当“分歧规划器”,模型生成一份中立的、针对特定实例的验证清单;随后转变为“清单验证器”,针对图像和问题执行这些自生成的检查,以产生最终基于事实的判断。我们将 DeltaRubric 公式化为一个多角色强化学习问题,联合优化规划与验证能力。在 Qwen3-VL 4B 和 8B Instruct 模型上的验证表明,DeltaRubric 取得了显著的实证收益。例如,在 VL-RewardBench 上,它使基础模型的整体准确率分别提高了 22.6(4B)和 18.8(8B)个百分点,大幅优于标准的无标准基线。结果表明,将评估分解为结构化、可验证的步骤,有助于实现更可靠、更具泛化性的多模态奖励建模。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:34

论文页面 - DeltaRubric:通过联合规划与验证实现生成式多模态奖励建模

来源:https://huggingface.co/papers/2605.09269

摘要

DeltaRubric 介绍了一种使用单个 MLLM 的两步多模态偏好评估方法,其中“分歧规划器”(Disagreement Planner)生成特定于实例的验证清单,“清单验证器”(Checklist Verifier)执行这些检查以产生有依据的判断,从而提高了奖励建模的可靠性。

对齐多模态大型语言模型(Multimodal Large Language Models)(MLLMs) 需要可靠的 奖励模型,然而现有的单步评估器可能会受到“懒惰判断”的影响,即利用语言先验知识而非细粒度的视觉验证。虽然基于规范(rubric-based)的评估在纯文本设置中缓解了这些偏差,但将其扩展到多模态任务时受到了 视觉推理 复杂性的瓶颈限制。响应之间的关键差异往往取决于特定于实例的视觉细节。稳健的评估需要动态合成能够隔离空间和事实差异的评估规范。为了解决这个问题,我们引入了 DeltaRubric,这是一种将 多模态偏好评估 重新表述为单个 MLLM 内的 规划与执行流程 的方法。DeltaRubric 分为两步操作:首先作为 分歧规划器,模型生成一个中立的、特定于实例的 验证 清单;随后转变为 清单验证器,针对图像和问题执行这些自生成的检查,以产生最终的有依据的判断。我们将 DeltaRubric 公式化为一个 多角色强化学习 问题,联合优化规划和验证能力。在 Qwen3-VL 4B 和 8B Instruct 模型上的验证表明,DeltaRubric 取得了扎实的实证收益。例如,在 OnVL-RewardBench 上,它将基础模型的整体准确率提高了 +22.6(4B)和 +18.8(8B)个百分点,大幅优于标准的无规范基线。结果表明,将评估分解为结构化、可验证的步骤,能够带来更可靠且更具泛化能力的多模态奖励建模。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09269) 查看 PDF (https://arxiv.org/pdf/2605.09269) 项目页面 (https://deltarubric.github.io/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09269)

在您的 agent 中获取此论文:

hf papers read 2605.09269

没有最新版的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.09269 即可从此页面链接。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.09269 即可从此页面链接。

引用此论文的应用空间 0

没有链接到此论文的应用空间

在应用空间 README.md 中引用 arxiv.org/abs/2605.09269 即可从此页面链接。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到 合集 即可从此页面链接。

相似文章

C2:基于二元偏好的可扩展评分增强奖励建模

Hugging Face Daily Papers

C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。

RubricEM:基于量规引导策略分解,超越可验证奖励的元强化学习

Hugging Face Daily Papers

本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。