C2:基于二元偏好的可扩展评分增强奖励建模

Hugging Face Daily Papers 论文

摘要

C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。

评分增强的验证通过明确的评估标准引导奖励模型,产生比单一模型验证更可靠的判断。然而,现有方法大多需要昂贵的评分标注,限制了可扩展性。此外,我们发现评分生成容易受到合作失败的影响;低质量的评分反而会误导奖励模型而非提供帮助。受协作通信原则的启发,我们提出了协作而批判的奖励建模(C2),该框架通过让奖励模型与仅通过二元偏好训练出的评分生成器进行批判性协作,显著提升了奖励模型的判断能力。在 C2 中,我们通过测量每个评分如何将奖励模型推向或偏离正确偏好,从而合成有益和误导性的评分对。利用这些对比对,我们训练一个协作的评分生成器来提出有益的评分,以及一个批判性验证器在做出判断前评估评分的有效性,推理时只遵循其认为有益的评分。C2 超越了在同一二元偏好上训练的推理奖励模型,在 RM-Bench 上取得了最高 6.5 分的提升,在 AlpacaEval 2.0 上取得了 6.0 分的长度控制胜率提升。无需外部评分标注,C2 使得 8B 奖励模型能够匹配使用来自 4 倍更大模型的评分所达到的性能。总体而言,我们的工作表明,在评分增强的验证中引发深思熟虑的协作,能够以可扩展的方式提高奖励模型的可信度。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - C2:基于二元偏好的可扩展评分标准增强奖励建模

来源:https://huggingface.co/papers/2604.13618

摘要

合作且批判的奖励建模(C2)通过让奖励模型与完全从二元偏好训练的评分标准生成器进行批判性协作,增强了奖励模型的可靠性,无需昂贵的评分标准标注即可实现卓越性能。

评分标准增强验证利用明确的评估标准引导奖励模型,比单一模型验证产生更可靠的判断。然而,现有大多数方法需要昂贵的评分标准标注,限制了可扩展性。此外,我们发现评分标准生成容易陷入协作失败:低质量的评分标准会主动误导奖励模型,而非帮助它。受合作沟通原则的启发,我们提出了合作且批判的奖励建模(C2),这一框架通过让奖励模型与仅从二元偏好训练而来的评分标准生成器进行批判性协作,显著提升了奖励模型的判断质量。在C2中,我们通过衡量每个评分标准使奖励模型朝向或偏离正确偏好的程度,合成了有益和误导性的评分标准对。利用这些对比对,我们训练了一个合作性的评分标准生成器以提出有益评分标准,以及一个批判性验证器来评估评分标准的有效性,推理时仅遵循其认为有益的评分标准。在相同二元偏好数据上训练的推理奖励模型中,C2表现更优,在RM-Bench上提升高达6.5个百分点,在AlpacaEval 2.0上的长度控制胜率提升6.0个百分点。在无需外部评分标准标注的情况下,C2使一个8B参数的奖励模型达到了使用4倍大模型生成的评分标准时的性能。总体而言,我们的工作表明,在评分标准增强验证中激发审慎合作,能够以可扩展的方式使奖励模型更加可信。

查看arXiv页面 (https://arxiv.org/abs/2604.13618)查看PDF (https://arxiv.org/pdf/2604.13618)GitHub1 (https://github.com/asahi-research/C2)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.13618)

社区

论文作者

论文提交者

3天前 (https://huggingface.co/papers/2604.13618#69e19ba83ce9e902c47d2e98)

编辑于3天前 (https://huggingface.co/papers/2604.13618#69e19ba83ce9e902c47d2e98) 评分标准是使奖励模型与人类判断对齐的强大工具,但伴随着两个问题:

  1. 人工标注的评分标准成本高昂。
  2. 自动生成的评分标准通常模糊或具有误导性,反而可能损害奖励模型。

我们提出了C2,这是一个仅从二元偏好即可构建稳健的评分标准验证的奖励建模框架。生成器学习哪些评分标准有助于验证器得出正确判断,验证器则学习信任哪些评分标准。

通过拖拽文本输入、粘贴或点击此处上传图片、音频和视频。

在此处点击或粘贴以上传图片

在你的智能体中获取此论文:

hf papers read 2604.13618

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2604.13618以从本页关联它。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2604.13618以从本页关联它。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2604.13618以从本页关联它。

包含此论文的收藏集1

相似文章

科学写作评估的奖励建模

arXiv cs.CL

本文提出 SciRM,一种经济高效的开源奖励模型,通过两阶段训练框架专门用于评估科学写作,该框架优化了评估偏好和推理能力。这些模型可以泛化到多种科学写作任务,无需任务特定的重新训练,解决了现有基于 LLM 的评判器在特定领域评估标准上的局限性。

AgentV-RL:用智能体验证器扩展奖励建模

arXiv cs.CL

AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。