DeltaRubric:通过联合规划与验证实现生成式多模态奖励建模
摘要
DeltaRubric 是一篇研究论文,介绍了一种使用单一多模态大语言模型(MLLM)的两步多模态偏好评估方法,通过联合规划与验证来提高奖励建模的可靠性。
查看缓存全文
缓存时间: 2026/05/12 07:34
论文页面 - DeltaRubric:通过联合规划与验证实现生成式多模态奖励建模
来源:https://huggingface.co/papers/2605.09269
摘要
DeltaRubric 介绍了一种使用单个 MLLM 的两步多模态偏好评估方法,其中“分歧规划器”(Disagreement Planner)生成特定于实例的验证清单,“清单验证器”(Checklist Verifier)执行这些检查以产生有依据的判断,从而提高了奖励建模的可靠性。
对齐多模态大型语言模型(Multimodal Large Language Models)(MLLMs) 需要可靠的 奖励模型,然而现有的单步评估器可能会受到“懒惰判断”的影响,即利用语言先验知识而非细粒度的视觉验证。虽然基于规范(rubric-based)的评估在纯文本设置中缓解了这些偏差,但将其扩展到多模态任务时受到了 视觉推理 复杂性的瓶颈限制。响应之间的关键差异往往取决于特定于实例的视觉细节。稳健的评估需要动态合成能够隔离空间和事实差异的评估规范。为了解决这个问题,我们引入了 DeltaRubric,这是一种将 多模态偏好评估 重新表述为单个 MLLM 内的 规划与执行流程 的方法。DeltaRubric 分为两步操作:首先作为 分歧规划器,模型生成一个中立的、特定于实例的 验证 清单;随后转变为 清单验证器,针对图像和问题执行这些自生成的检查,以产生最终的有依据的判断。我们将 DeltaRubric 公式化为一个 多角色强化学习 问题,联合优化规划和验证能力。在 Qwen3-VL 4B 和 8B Instruct 模型上的验证表明,DeltaRubric 取得了扎实的实证收益。例如,在 OnVL-RewardBench 上,它将基础模型的整体准确率提高了 +22.6(4B)和 +18.8(8B)个百分点,大幅优于标准的无规范基线。结果表明,将评估分解为结构化、可验证的步骤,能够带来更可靠且更具泛化能力的多模态奖励建模。
查看 arXiv 页面 (https://arxiv.org/abs/2605.09269) 查看 PDF (https://arxiv.org/pdf/2605.09269) 项目页面 (https://deltarubric.github.io/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09269)
在您的 agent 中获取此论文:
hf papers read 2605.09269
没有最新版的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.09269 即可从此页面链接。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.09269 即可从此页面链接。
引用此论文的应用空间 0
没有链接到此论文的应用空间
在应用空间 README.md 中引用 arxiv.org/abs/2605.09269 即可从此页面链接。
包含此论文的合集 0
没有包含此论文的合集
将此论文添加到 合集 即可从此页面链接。
相似文章
C2:基于二元偏好的可扩展评分增强奖励建模
C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。
RUBRIC-ARROW:非可验证领域中LLM后训练的交替点状评分标准奖励建模
RUBRIC-ARROW 提出了一种交替式奖励建模框架,通过减少平局并利用成对偏好数据改进了基于评分标准的方法,在非可验证领域为LLM后训练实现了具有竞争力的准确率和收益。
自动评分标准作为奖励:从隐性偏好到显式多模态生成准则
本文介绍了自动评分标准作为奖励(ARR)框架,该框架将隐性偏好知识外显化为多模态对齐的显式评分标准。文章提出了评分标准策略优化(RPO)以稳定策略梯度,在文生图和图像编辑任务中取得了更佳的性能。
RubricEM:基于量规引导策略分解,超越可验证奖励的元强化学习
本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。
并非每种评分标准都同样有效:面向策略感知的评分标准奖励用于RLVR
本文提出POW3R,一种面向策略感知的评分标准奖励框架,用于可验证奖励的强化学习(RLVR)。它表明静态评分标准聚合会错误分配学习信号,而POW3R在多种设置下实现了更快的收敛和更好的性能。