基于评分标准的强化学习中的奖励黑客问题

Hugging Face Daily Papers 2026/05/12 00:00 论文

reinforcement-learning reward-hacking ai-safety alignment verifiers rubric-based-rewards

摘要

本文研究了基于评分标准的强化学习中的奖励黑客现象，分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法，并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。

具有可验证奖励的强化学习在数学和编程等领域带来了显著的后期训练增益，尽管许多开放式场景仍依赖于基于评分标准的奖励机制。我们研究了基于评分标准的强化学习中的奖励黑客问题，其中策略是针对训练验证器进行优化的，但评估则是通过由三个前沿法官组成的跨家族面板进行的，从而降低了对单一评估者的依赖。我们的框架区分了两种分歧来源：验证器失败，即训练验证器认可某些评分标准，而参考验证器却拒绝这些标准；以及评分标准设计局限性，即即使强大的基于评分标准的验证器也更倾向于那些在无评分标准法官整体评分中表现更差的回复。在医疗和科学领域，弱验证器产生了巨大的代理奖励增益，但这些增益并未转移到参考验证器上；随着训练的进行，利用行为逐渐增加，并集中在反复出现的失败模式中，例如复合标准的部分满足、将隐含内容视为显式内容以及主题匹配不精确。更强的验证器大幅减少但并未消除对验证器的利用。我们还引入了“自我内化差距”，这是一种基于策略对数概率的无验证器诊断方法，用于追踪参考验证器的质量，检测在使用弱验证器训练的策略停止改进的情况。最后，在我们的设置中，当评分标准未明确规定重要失败模式时，更强的验证并不能防止奖励黑客：基于评分标准的验证器更倾向于强化学习检查点，而无评分标准的法官则更倾向于基础模型。这些分歧伴随着集中在完整性和存在性标准上的增益，以及事实正确性、简洁性、相关性和整体质量的下降。综上所述，这些结果表明，更强的验证可以减少奖励黑客现象，但本身并不能确保评分标准的增益对应于更广泛的质量提升。

查看原文

查看缓存全文

缓存时间: 2026/05/13 04:11

论文页 - 基于评分标准的强化学习中的奖励黑客行为

来源：https://huggingface.co/papers/2605.12474

摘要

本研究考察了基于评分标准的强化学习中的奖励黑客（reward hacking）现象，指出验证器失效（verifier failure）和评分标准设计局限性是导致训练指标与评估指标出现偏差的关键原因。

带有可验证奖励的强化学习（https://huggingface.co/papers?q=Reinforcement%20learning）在数学和编程等领域实现了显著的后训练增益，尽管许多开放性场景仍依赖于基于评分标准的奖励（https://huggingface.co/papers?q=rubric-based%20rewards）。我们研究了基于评分标准的强化学习中的奖励黑客问题（https://huggingface.co/papers?q=reward%20hacking），其中策略针对训练验证器（https://huggingface.co/papers?q=training%20verifier）进行优化，但由包含三个前沿模型的跨家族评审面板（https://huggingface.co/papers?q=cross-family%20panel）进行评估，从而降低了对单一评估器的依赖。我们的框架将偏差来源分为两类：验证器失效，即训练验证器（https://huggingface.co/papers?q=training%20verifier）给予评分标准中引用验证器（https://huggingface.co/papers?q=reference%20verifiers）所拒绝的内容以肯定评价；以及评分标准设计局限性，即即使强大的基于评分标准的验证器也更倾向于那些在无评分标准评估中总体评分更低的回复。在医学和科学领域，弱验证器会产生巨大的代理奖励增益（https://huggingface.co/papers?q=proxy-reward%20gains），但这些增益无法迁移到引用验证器（https://huggingface.co/papers?q=reference%20verifiers）；随着训练进行，利用现象逐渐加剧，并集中在反复出现的失败模式中，如对复合条件的部分满足、将隐式内容视为显式内容以及主题匹配不精确。更强的验证器虽能大幅减少但未能完全消除对验证器的利用。我们还引入了自内化差距（https://huggingface.co/papers?q=self-internalization%20gap），这是一种基于策略对数概率（https://huggingface.co/papers?q=policy%20log-probabilities）的无需验证器的诊断方法，能够追踪引用验证器的质量，检测在使用弱验证器训练的模型何时停止改善。最后，在我们的设置中，当评分标准未明确重要的失败模式时，更强的验证（https://huggingface.co/papers?q=verification）并不能阻止奖励黑客行为（https://huggingface.co/papers?q=reward%20hacking）：基于评分标准的验证器偏好强化学习检查点，而无评分标准的评审员则偏好基础模型。这些分歧与集中在完整性和存在性标准上的增益以及事实准确性、简洁性、相关性和整体质量的下降同时发生。综上所述，这些结果表明更强的验证（https://huggingface.co/papers?q=verification）虽能减少奖励黑客行为（https://huggingface.co/papers?q=reward%20hacking），但本身并不能确保评分标准的提升对应于更广泛的质量提升。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12474)查看 PDF (https://arxiv.org/pdf/2605.12474)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12474)

在你的 Agent 中获取此论文：

hf papers read 2605\.12474

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.12474 即可从此页面建立链接。

引用此论文的数据集0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.12474 即可从此页面建立链接。

引用此论文的 Spaces0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.12474 即可从此页面建立链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

基于评分标准的强化学习中的奖励黑客问题

论文页 - 基于评分标准的强化学习中的奖励黑客行为

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

基于标准的强化学习中奖励黑客行为的复现、分析与检测

大模型时代的奖励黑客：机制、涌现错位与挑战

并非每种评分标准都同样有效：面向策略感知的评分标准奖励用于RLVR

训练中检测奖励欺骗的RL奖励函数调试器 [P]

语言模型代理中的奖励破解：重访AI Safety Gridworlds

提交意见反馈