自动评分标准作为奖励:从隐性偏好到显式多模态生成准则
摘要
本文介绍了自动评分标准作为奖励(ARR)框架,该框架将隐性偏好知识外显化为多模态对齐的显式评分标准。文章提出了评分标准策略优化(RPO)以稳定策略梯度,在文生图和图像编辑任务中取得了更佳的性能。
查看缓存全文
缓存时间: 2026/05/12 02:49
论文页面 - 自动评分标准作为奖励:从隐式偏好到显式多模态生成标准
来源:https://huggingface.co/papers/2605.08354
摘要
自动评分标准作为奖励(Auto-Rubric as Reward, ARR)框架将隐式偏好知识外化为结构化评分标准,以改善多模态对齐;而评分标准策略优化(Rubric Policy Optimization, RPO)则通过源自多维评估的二值化奖励来稳定策略梯度。
将多模态生成模型与人类偏好对齐,需要尊重人类判断组合式、多维结构的奖励信号。主流的 RLHF 方法将这种结构简化为标量或成对标签,将细致的偏好压缩为不透明的参数化代理,从而暴露出对奖励黑客(reward hacking)(https://huggingface.co/papers?q=reward%20hacking)的脆弱性。尽管最近的评分标准作为奖励(Rubrics-as-Reward)(https://huggingface.co/papers?q=Rubrics-as-Reward)(RaR)方法试图通过显式标准恢复这种结构,但生成同时具备可靠性、可扩展性和数据效率的评分标准仍然是一个开放性问题。我们引入了自动评分标准作为奖励(ARR),这是一个将奖励建模(reward modeling)(https://huggingface.co/papers?q=reward%20modeling)从隐式权重优化重构为显式、基于标准的分解的框架。在任何成对比较之前,ARR 将视觉语言模型(VLM)(https://huggingface.co/papers?q=VLM)内化的偏好知识外化为特定提示的评分标准(prompt-specific rubrics)(https://huggingface.co/papers?q=prompt-specific%20rubrics),将整体意图转化为独立可验证的质量维度。这种将隐式偏好结构转化为可检查、可解释约束的方法,显著抑制了包括位置偏差在内的评估偏差,从而实现了在极少监督下的零样本部署(zero-shot deployment)(https://huggingface.co/papers?q=zero-shot%20deployment)和少样本条件化(few-shot conditioning)(https://huggingface.co/papers?q=few-shot%20conditioning)。为了将这些收益扩展到生成式训练中,我们提出了评分标准策略优化(RPO),它将 ARR 的结构化多维评估蒸馏为稳健的二值化奖励(binary reward)(https://huggingface.co/papers?q=binary%20reward),用基于评分标准的偏好决策替代不透明的标量回归,从而稳定策略梯度(policy gradients)(https://huggingface.co/papers?q=policy%20gradients)。在文本到图像生成(text-to-image generation)(https://huggingface.co/papers?q=text-to-image%20generation)和图像编辑(image editing)(https://huggingface.co/papers?q=image%20editing)基准测试中,ARR-RPO 优于成对奖励模型和 VLM(https://huggingface.co/papers?q=VLM)裁判,表明将隐式偏好知识(implicit preference knowledge)(https://huggingface.co/papers?q=implicit%20preference%20knowledge)显式外化为结构化评分标准能够实现更可靠、数据效率更高的多模态对齐,揭示了瓶颈在于缺乏因子化接口,而非知识不足。
查看 arXiv 页面(https://arxiv.org/abs/2605.08354)查看 PDF(https://arxiv.org/pdf/2605.08354)项目页面(https://openenvision.github.io/AutoRubric-as-Reward/)GitHub(https://github.com/OpenEnvision/AutoRubric-as-Reward)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.08354)
在你的 agent 中获取这篇论文:
hf papers read 2605\.08354
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
OpenEnvisionLab/Auto-Rubric-as-Reward Text-to-Image• 更新于33分钟前 • 2 (https://huggingface.co/OpenEnvisionLab/Auto-Rubric-as-Reward)
引用此论文的数据集0
没有关联此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.08354 以从此页面建立链接。
引用此论文的空间(Spaces)0
没有关联此论文的空间(Space)
在空间(Space)的 README.md 中引用 arxiv.org/abs/2605.08354 以从此页面建立链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面建立链接。
相似文章
AutoRubric-T2I: 基于规则的文本到图像对齐鲁棒奖励模型
AutoRubric-T2I 自动生成并选择显式评分标准,以指导视觉语言模型裁判对文本到图像生成进行评判,用极少的人工标注实现高质量奖励信号,并提升下游任务的生成质量。
C2:基于二元偏好的可扩展评分增强奖励建模
C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。
并非每种评分标准都同样有效:面向策略感知的评分标准奖励用于RLVR
本文提出POW3R,一种面向策略感知的评分标准奖励框架,用于可验证奖励的强化学习(RLVR)。它表明静态评分标准聚合会错误分配学习信号,而POW3R在多种设置下实现了更快的收敛和更好的性能。
RubricEM:基于量规引导策略分解,超越可验证奖励的元强化学习
本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。
RUBRIC-ARROW:非可验证领域中LLM后训练的交替点状评分标准奖励建模
RUBRIC-ARROW 提出了一种交替式奖励建模框架,通过减少平局并利用成对偏好数据改进了基于评分标准的方法,在非可验证领域为LLM后训练实现了具有竞争力的准确率和收益。