DeltaRubric：通过联合规划与验证实现生成式多模态奖励建模

Hugging Face Daily Papers 2026/05/10 00:00 论文

摘要

DeltaRubric 是一篇研究论文，介绍了一种使用单一多模态大语言模型（MLLM）的两步多模态偏好评估方法，通过联合规划与验证来提高奖励建模的可靠性。

对齐多模态大语言模型（MLLMs）需要可靠的奖励模型，然而现有的单步评估器往往存在“懒惰判断”的问题，即过度依赖语言先验而忽略细粒度的视觉验证。虽然在纯文本设置中基于标准（rubric-based）的评估可以缓解这些偏差，但将其扩展到多模态任务时，受限于视觉推理的复杂性而遭遇瓶颈。不同回答之间的关键差异往往取决于特定实例的视觉细节。稳健的评估要求动态合成能够隔离空间和事实差异的评估标准。为此，我们引入了 DeltaRubric，这是一种在单一 MLLM 中将多模态偏好评估重构为“规划-执行”过程的方法。DeltaRubric 分为两步运行：首先充当“分歧规划器”，模型生成一份中立的、针对特定实例的验证清单；随后转变为“清单验证器”，针对图像和问题执行这些自生成的检查，以产生最终基于事实的判断。我们将 DeltaRubric 公式化为一个多角色强化学习问题，联合优化规划与验证能力。在 Qwen3-VL 4B 和 8B Instruct 模型上的验证表明，DeltaRubric 取得了显著的实证收益。例如，在 VL-RewardBench 上，它使基础模型的整体准确率分别提高了 22.6（4B）和 18.8（8B）个百分点，大幅优于标准的无标准基线。结果表明，将评估分解为结构化、可验证的步骤，有助于实现更可靠、更具泛化性的多模态奖励建模。

查看原文

查看缓存全文

缓存时间: 2026/05/12 07:34

论文页面 - DeltaRubric：通过联合规划与验证实现生成式多模态奖励建模

来源：https://huggingface.co/papers/2605.09269

摘要

DeltaRubric 介绍了一种使用单个 MLLM 的两步多模态偏好评估方法，其中“分歧规划器”（Disagreement Planner）生成特定于实例的验证清单，“清单验证器”（Checklist Verifier）执行这些检查以产生有依据的判断，从而提高了奖励建模的可靠性。

对齐多模态大型语言模型（Multimodal Large Language Models）(MLLMs) 需要可靠的奖励模型，然而现有的单步评估器可能会受到“懒惰判断”的影响，即利用语言先验知识而非细粒度的视觉验证。虽然基于规范（rubric-based）的评估在纯文本设置中缓解了这些偏差，但将其扩展到多模态任务时受到了视觉推理复杂性的瓶颈限制。响应之间的关键差异往往取决于特定于实例的视觉细节。稳健的评估需要动态合成能够隔离空间和事实差异的评估规范。为了解决这个问题，我们引入了 DeltaRubric，这是一种将多模态偏好评估重新表述为单个 MLLM 内的规划与执行流程的方法。DeltaRubric 分为两步操作：首先作为分歧规划器，模型生成一个中立的、特定于实例的验证清单；随后转变为清单验证器，针对图像和问题执行这些自生成的检查，以产生最终的有依据的判断。我们将 DeltaRubric 公式化为一个多角色强化学习问题，联合优化规划和验证能力。在 Qwen3-VL 4B 和 8B Instruct 模型上的验证表明，DeltaRubric 取得了扎实的实证收益。例如，在 OnVL-RewardBench 上，它将基础模型的整体准确率提高了 +22.6（4B）和 +18.8（8B）个百分点，大幅优于标准的无规范基线。结果表明，将评估分解为结构化、可验证的步骤，能够带来更可靠且更具泛化能力的多模态奖励建模。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09269) 查看 PDF (https://arxiv.org/pdf/2605.09269) 项目页面 (https://deltarubric.github.io/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09269)

在您的 agent 中获取此论文：

hf papers read 2605.09269

没有最新版的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.09269 即可从此页面链接。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.09269 即可从此页面链接。

引用此论文的应用空间 0

没有链接到此论文的应用空间

在应用空间 README.md 中引用 arxiv.org/abs/2605.09269 即可从此页面链接。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到合集即可从此页面链接。

DeltaRubric：通过联合规划与验证实现生成式多模态奖励建模

论文页面 - DeltaRubric：通过联合规划与验证实现生成式多模态奖励建模

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的应用空间 0

包含此论文的合集 0

相似文章

C2：基于二元偏好的可扩展评分增强奖励建模

RUBRIC-ARROW：非可验证领域中LLM后训练的交替点状评分标准奖励建模

自动评分标准作为奖励：从隐性偏好到显式多模态生成准则

RubricEM：基于量规引导策略分解，超越可验证奖励的元强化学习

并非每种评分标准都同样有效：面向策略感知的评分标准奖励用于RLVR

提交意见反馈