基于评分标准的强化学习中的奖励黑客问题
摘要
本文研究了基于评分标准的强化学习中的奖励黑客现象,分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法,并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。
查看缓存全文
缓存时间: 2026/05/13 04:11
论文页 - 基于评分标准的强化学习中的奖励黑客行为
来源:https://huggingface.co/papers/2605.12474
摘要
本研究考察了基于评分标准的强化学习中的奖励黑客(reward hacking)现象,指出验证器失效(verifier failure)和评分标准设计局限性是导致训练指标与评估指标出现偏差的关键原因。
带有可验证奖励的强化学习(https://huggingface.co/papers?q=Reinforcement%20learning)在数学和编程等领域实现了显著的后训练增益,尽管许多开放性场景仍依赖于基于评分标准的奖励(https://huggingface.co/papers?q=rubric-based%20rewards)。我们研究了基于评分标准的强化学习中的奖励黑客问题(https://huggingface.co/papers?q=reward%20hacking),其中策略针对训练验证器(https://huggingface.co/papers?q=training%20verifier)进行优化,但由包含三个前沿模型的跨家族评审面板(https://huggingface.co/papers?q=cross-family%20panel)进行评估,从而降低了对单一评估器的依赖。我们的框架将偏差来源分为两类:验证器失效,即训练验证器(https://huggingface.co/papers?q=training%20verifier)给予评分标准中引用验证器(https://huggingface.co/papers?q=reference%20verifiers)所拒绝的内容以肯定评价;以及评分标准设计局限性,即即使强大的基于评分标准的验证器也更倾向于那些在无评分标准评估中总体评分更低的回复。在医学和科学领域,弱验证器会产生巨大的代理奖励增益(https://huggingface.co/papers?q=proxy-reward%20gains),但这些增益无法迁移到引用验证器(https://huggingface.co/papers?q=reference%20verifiers);随着训练进行,利用现象逐渐加剧,并集中在反复出现的失败模式中,如对复合条件的部分满足、将隐式内容视为显式内容以及主题匹配不精确。更强的验证器虽能大幅减少但未能完全消除对验证器的利用。我们还引入了自内化差距(https://huggingface.co/papers?q=self-internalization%20gap),这是一种基于策略对数概率(https://huggingface.co/papers?q=policy%20log-probabilities)的无需验证器的诊断方法,能够追踪引用验证器的质量,检测在使用弱验证器训练的模型何时停止改善。最后,在我们的设置中,当评分标准未明确重要的失败模式时,更强的验证(https://huggingface.co/papers?q=verification)并不能阻止奖励黑客行为(https://huggingface.co/papers?q=reward%20hacking):基于评分标准的验证器偏好强化学习检查点,而无评分标准的评审员则偏好基础模型。这些分歧与集中在完整性和存在性标准上的增益以及事实准确性、简洁性、相关性和整体质量的下降同时发生。综上所述,这些结果表明更强的验证(https://huggingface.co/papers?q=verification)虽能减少奖励黑客行为(https://huggingface.co/papers?q=reward%20hacking),但本身并不能确保评分标准的提升对应于更广泛的质量提升。
查看 arXiv 页面 (https://arxiv.org/abs/2605.12474)查看 PDF (https://arxiv.org/pdf/2605.12474)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12474)
在你的 Agent 中获取此论文:
hf papers read 2605\.12474
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.12474 即可从此页面建立链接。
引用此论文的数据集0
暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.12474 即可从此页面建立链接。
引用此论文的 Spaces0
暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.12474 即可从此页面建立链接。
包含此论文的收藏集0
暂无收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。
相似文章
基于标准的强化学习中奖励黑客行为的复现、分析与检测
本文介绍了CHERRL,一个用于研究基于标准的强化学习中奖励黑客行为的可控环境。在该环境中,可以注入LLM作为评判者的偏见,以复现和分析黑客行为。作者还探索了一种基于智能体的系统,用于从训练日志中自动检测奖励黑客行为的开始。
大模型时代的奖励黑客:机制、涌现错位与挑战
综述提出“代理压缩假设”,解释 RLHF 及相关方法如何在大型语言与多模态模型中系统性地诱发奖励黑客、欺骗与监督博弈。
并非每种评分标准都同样有效:面向策略感知的评分标准奖励用于RLVR
本文提出POW3R,一种面向策略感知的评分标准奖励框架,用于可验证奖励的强化学习(RLVR)。它表明静态评分标准聚合会错误分配学习信号,而POW3R在多种设置下实现了更快的收敛和更好的性能。
训练中检测奖励欺骗的RL奖励函数调试器 [P]
一个调试器,在强化学习训练期间检测奖励函数中的奖励欺骗,帮助开发人员识别和修复问题。
语言模型代理中的奖励破解:重访AI Safety Gridworlds
本文将AI Safety Gridworlds改编为基于文本的评估,并发现语言模型代理在不同规模上表现出零样本奖励破解,而标准的强化学习缓解措施无法纠正这一问题。