自动评分标准作为奖励:从隐性偏好到显式多模态生成准则
摘要
本文介绍了自动评分标准作为奖励(ARR)框架,该框架将隐性偏好知识外显化为多模态对齐的显式评分标准。文章提出了评分标准策略优化(RPO)以稳定策略梯度,在文生图和图像编辑任务中取得了更佳的性能。
查看缓存全文
缓存时间: 2026/05/12 02:49
论文页面 - 自动评分标准作为奖励:从隐式偏好到显式多模态生成标准
来源:https://huggingface.co/papers/2605.08354
摘要
自动评分标准作为奖励(Auto-Rubric as Reward, ARR)框架将隐式偏好知识外化为结构化评分标准,以改善多模态对齐;而评分标准策略优化(Rubric Policy Optimization, RPO)则通过源自多维评估的二值化奖励来稳定策略梯度。
将多模态生成模型与人类偏好对齐,需要尊重人类判断组合式、多维结构的奖励信号。主流的 RLHF 方法将这种结构简化为标量或成对标签,将细致的偏好压缩为不透明的参数化代理,从而暴露出对奖励黑客(reward hacking)(https://huggingface.co/papers?q=reward%20hacking)的脆弱性。尽管最近的评分标准作为奖励(Rubrics-as-Reward)(https://huggingface.co/papers?q=Rubrics-as-Reward)(RaR)方法试图通过显式标准恢复这种结构,但生成同时具备可靠性、可扩展性和数据效率的评分标准仍然是一个开放性问题。我们引入了自动评分标准作为奖励(ARR),这是一个将奖励建模(reward modeling)(https://huggingface.co/papers?q=reward%20modeling)从隐式权重优化重构为显式、基于标准的分解的框架。在任何成对比较之前,ARR 将视觉语言模型(VLM)(https://huggingface.co/papers?q=VLM)内化的偏好知识外化为特定提示的评分标准(prompt-specific rubrics)(https://huggingface.co/papers?q=prompt-specific%20rubrics),将整体意图转化为独立可验证的质量维度。这种将隐式偏好结构转化为可检查、可解释约束的方法,显著抑制了包括位置偏差在内的评估偏差,从而实现了在极少监督下的零样本部署(zero-shot deployment)(https://huggingface.co/papers?q=zero-shot%20deployment)和少样本条件化(few-shot conditioning)(https://huggingface.co/papers?q=few-shot%20conditioning)。为了将这些收益扩展到生成式训练中,我们提出了评分标准策略优化(RPO),它将 ARR 的结构化多维评估蒸馏为稳健的二值化奖励(binary reward)(https://huggingface.co/papers?q=binary%20reward),用基于评分标准的偏好决策替代不透明的标量回归,从而稳定策略梯度(policy gradients)(https://huggingface.co/papers?q=policy%20gradients)。在文本到图像生成(text-to-image generation)(https://huggingface.co/papers?q=text-to-image%20generation)和图像编辑(image editing)(https://huggingface.co/papers?q=image%20editing)基准测试中,ARR-RPO 优于成对奖励模型和 VLM(https://huggingface.co/papers?q=VLM)裁判,表明将隐式偏好知识(implicit preference knowledge)(https://huggingface.co/papers?q=implicit%20preference%20knowledge)显式外化为结构化评分标准能够实现更可靠、数据效率更高的多模态对齐,揭示了瓶颈在于缺乏因子化接口,而非知识不足。
查看 arXiv 页面(https://arxiv.org/abs/2605.08354)查看 PDF(https://arxiv.org/pdf/2605.08354)项目页面(https://openenvision.github.io/AutoRubric-as-Reward/)GitHub(https://github.com/OpenEnvision/AutoRubric-as-Reward)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.08354)
在你的 agent 中获取这篇论文:
hf papers read 2605\.08354
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
OpenEnvisionLab/Auto-Rubric-as-Reward Text-to-Image• 更新于33分钟前 • 2 (https://huggingface.co/OpenEnvisionLab/Auto-Rubric-as-Reward)
引用此论文的数据集0
没有关联此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.08354 以从此页面建立链接。
引用此论文的空间(Spaces)0
没有关联此论文的空间(Space)
在空间(Space)的 README.md 中引用 arxiv.org/abs/2605.08354 以从此页面建立链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面建立链接。
相似文章
C2:基于二元偏好的可扩展评分增强奖励建模
C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。
RubricEM:基于量规引导策略分解,超越可验证奖励的元强化学习
本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。
DeltaRubric:通过联合规划与验证实现生成式多模态奖励建模
DeltaRubric 是一篇研究论文,介绍了一种使用单一多模态大语言模型(MLLM)的两步多模态偏好评估方法,通过联合规划与验证来提高奖励建模的可靠性。
量化评分标准修改对人类与自动评分者一致性影响的统计分析
本研究分析了评分标准(rubrics)的修改(例如从整体性标准转变为分析性标准)如何影响人类评分者与 AI 自动评分者之间的一致性。研究结果表明,提供示例和减少偏见有助于提高一致性,而更高的复杂性往往会降低一致性。
基于评分标准的强化学习中的奖励黑客问题
本文研究了基于评分标准的强化学习中的奖励黑客现象,分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法,并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。