自动评分标准作为奖励：从隐性偏好到显式多模态生成准则

Hugging Face Daily Papers 2026/05/08 00:00 论文

摘要

本文介绍了自动评分标准作为奖励（ARR）框架，该框架将隐性偏好知识外显化为多模态对齐的显式评分标准。文章提出了评分标准策略优化（RPO）以稳定策略梯度，在文生图和图像编辑任务中取得了更佳的性能。

将多模态生成模型与人类偏好对齐，需要能够尊重人类判断所具有的组合物和多维结构的奖励信号。主流的 RLHF（基于人类反馈的强化学习）方法将这种结构简化为标量或成对标签，将细微的偏好压缩为不透明的参数代理，从而暴露出奖励黑客攻击的脆弱性。虽然近期的评分标准作为奖励（RaR）方法试图通过显式标准来恢复这种结构，但生成同时具备可靠性、可扩展性和数据效率的评分标准仍是一个未决问题。我们引入了自动评分标准作为奖励（ARR），这是一个将奖励建模从隐式权重优化重新框架化为显式、基于准则分解的框架。在任何成对比较之前，ARR 将 VLM（视觉语言模型）内化的偏好知识外显化为特定于提示的评分标准，将整体的意图转化为可独立验证的质量维度。这种将隐性偏好结构转化为可检查、可解释约束的做法，显著抑制了包括位置偏差在内的评估偏差，使得在极少监督下的零样本部署和少样本调节成为可能。为了将这些优势扩展到生成式训练中，我们提出了评分标准策略优化（RPO），它将 ARR 的结构化多维评估蒸馏为稳健的二进制奖励，用基于评分标准的偏好决策替代不透明的标量回归，从而稳定策略梯度。在文生图生成和图像编辑基准测试中，ARR-RPO 的表现优于成对奖励模型和 VLM 评判者，证明将隐性偏好知识显式外显化为结构化评分标准能够实现更可靠、数据效率更高的多模态对齐，并揭示出瓶颈在于缺乏因子化接口，而非知识本身的不足。

查看原文

查看缓存全文

缓存时间: 2026/05/12 02:49

论文页面 - 自动评分标准作为奖励：从隐式偏好到显式多模态生成标准

来源：https://huggingface.co/papers/2605.08354

摘要

自动评分标准作为奖励（Auto-Rubric as Reward, ARR）框架将隐式偏好知识外化为结构化评分标准，以改善多模态对齐；而评分标准策略优化（Rubric Policy Optimization, RPO）则通过源自多维评估的二值化奖励来稳定策略梯度。

将多模态生成模型与人类偏好对齐，需要尊重人类判断组合式、多维结构的奖励信号。主流的 RLHF 方法将这种结构简化为标量或成对标签，将细致的偏好压缩为不透明的参数化代理，从而暴露出对奖励黑客（reward hacking）（https://huggingface.co/papers?q=reward%20hacking）的脆弱性。尽管最近的评分标准作为奖励（Rubrics-as-Reward）（https://huggingface.co/papers?q=Rubrics-as-Reward）（RaR）方法试图通过显式标准恢复这种结构，但生成同时具备可靠性、可扩展性和数据效率的评分标准仍然是一个开放性问题。我们引入了自动评分标准作为奖励（ARR），这是一个将奖励建模（reward modeling）（https://huggingface.co/papers?q=reward%20modeling）从隐式权重优化重构为显式、基于标准的分解的框架。在任何成对比较之前，ARR 将视觉语言模型（VLM）（https://huggingface.co/papers?q=VLM）内化的偏好知识外化为特定提示的评分标准（prompt-specific rubrics）（https://huggingface.co/papers?q=prompt-specific%20rubrics），将整体意图转化为独立可验证的质量维度。这种将隐式偏好结构转化为可检查、可解释约束的方法，显著抑制了包括位置偏差在内的评估偏差，从而实现了在极少监督下的零样本部署（zero-shot deployment）（https://huggingface.co/papers?q=zero-shot%20deployment）和少样本条件化（few-shot conditioning）（https://huggingface.co/papers?q=few-shot%20conditioning）。为了将这些收益扩展到生成式训练中，我们提出了评分标准策略优化（RPO），它将 ARR 的结构化多维评估蒸馏为稳健的二值化奖励（binary reward）（https://huggingface.co/papers?q=binary%20reward），用基于评分标准的偏好决策替代不透明的标量回归，从而稳定策略梯度（policy gradients）（https://huggingface.co/papers?q=policy%20gradients）。在文本到图像生成（text-to-image generation）（https://huggingface.co/papers?q=text-to-image%20generation）和图像编辑（image editing）（https://huggingface.co/papers?q=image%20editing）基准测试中，ARR-RPO 优于成对奖励模型和 VLM（https://huggingface.co/papers?q=VLM）裁判，表明将隐式偏好知识（implicit preference knowledge）（https://huggingface.co/papers?q=implicit%20preference%20knowledge）显式外化为结构化评分标准能够实现更可靠、数据效率更高的多模态对齐，揭示了瓶颈在于缺乏因子化接口，而非知识不足。

查看 arXiv 页面（https://arxiv.org/abs/2605.08354）查看 PDF（https://arxiv.org/pdf/2605.08354）项目页面（https://openenvision.github.io/AutoRubric-as-Reward/）GitHub（https://github.com/OpenEnvision/AutoRubric-as-Reward）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.08354）

在你的 agent 中获取这篇论文：

hf papers read 2605\.08354

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

OpenEnvisionLab/Auto-Rubric-as-Reward Text-to-Image• 更新于33分钟前 • 2 (https://huggingface.co/OpenEnvisionLab/Auto-Rubric-as-Reward)

引用此论文的数据集0

没有关联此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.08354 以从此页面建立链接。

引用此论文的空间（Spaces）0

没有关联此论文的空间（Space）

在空间（Space）的 README.md 中引用 arxiv.org/abs/2605.08354 以从此页面建立链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面建立链接。

自动评分标准作为奖励：从隐性偏好到显式多模态生成准则

论文页面 - 自动评分标准作为奖励：从隐式偏好到显式多模态生成标准

摘要

引用此论文的模型1

OpenEnvisionLab/Auto-Rubric-as-Reward Text-to-Image• 更新于33分钟前 • 2 (https://huggingface.co/OpenEnvisionLab/Auto-Rubric-as-Reward)

引用此论文的数据集0

引用此论文的空间（Spaces）0

包含此论文的收藏集0

相似文章

C2：基于二元偏好的可扩展评分增强奖励建模

RubricEM：基于量规引导策略分解，超越可验证奖励的元强化学习

DeltaRubric：通过联合规划与验证实现生成式多模态奖励建模

量化评分标准修改对人类与自动评分者一致性影响的统计分析

基于评分标准的强化学习中的奖励黑客问题

提交意见反馈