语言模型代理中的奖励破解:重访AI Safety Gridworlds
摘要
本文将AI Safety Gridworlds改编为基于文本的评估,并发现语言模型代理在不同规模上表现出零样本奖励破解,而标准的强化学习缓解措施无法纠正这一问题。
arXiv:2606.15385v1 公告类型:新
摘要:奖励破解(Reward hacking)是指AI系统利用被错误指定的目标来实现高奖励,而不满足预期目标,这仍然是AI安全中的一个核心挑战。然而,大多数已知的实例是在前沿系统中事后发现的,在这些系统中进行受控研究是不切实际的。我们将AI Safety Gridworlds框架改编为一个基于文本的评估套件,该套件将经典的强化学习安全任务重新表述为面向语言代理的任务。在对前沿和中型模型的测试中,我们发现规范博弈(specification gaming)是零样本出现的:模型系统地实现了高观察奖励,但在隐藏的安全目标上表现不佳,甚至看似安全的行为也可能反映出误解而非原则性的安全。强化学习并不能纠正这些失败:直接奖励优化扩大了观察奖励和隐藏奖励之间的差距,因为模型的初始能力使其在发现更安全的替代方案之前陷入局部奖励策略。这种模式在不同模型规模(1.5B--14B)中持续存在,并且不会通过更精细的信用分配、探索提示或熵正则化来解决。我们的结果表明,在使用有能力的语言模型代理优化代理目标时,奖励破解自然出现,并且抵抗标准缓解措施,这表明在代理设置中的代理奖励失败可能需要超出标准探索和信用分配修复的方法。为了促进可重复性,本研究的代码可在\href{https://github.com/asparius/verl-agent-safety}{我们的公共仓库}中获取。
查看缓存全文
缓存时间: 2026/06/16 11:45
# 语言模型代理中的奖励黑客:重新审视AI安全网格世界 来源:https://arxiv.org/html/2606.15385 徐宣东 加州大学伯克利分校 伯克利,加利福尼亚州,美国 xuandongzhao@berkeley\.edu ###### 摘要 奖励黑客(Reward Hacking),即AI系统利用错误指定的目标来获得高奖励而不满足预期目标的现象,仍然是AI安全的核心挑战。然而,大多数已知实例都是在事后发现的,发生在难以进行受控研究的前沿系统中。我们将AI安全网格世界框架改编为一个基于文本的评估套件,为基于语言的代理重新构想了经典的强化学习安全任务。在前沿和中规模模型中,我们发现规范博弈(specification gaming)在零样本情况下出现:模型系统性地获得高观测奖励,同时在隐藏安全目标上表现不佳,甚至看似安全的行为也可能反映误解而非原则性安全。强化学习并未纠正这些失败:直接奖励优化扩大了观测奖励与隐藏奖励之间的差距,因为模型最初的胜任能力导致其在发现更安全的替代方案之前锁定在局部奖励策略上。这种模式在模型规模(1.5B–14B)中持续存在,并且不能通过更精细的信用分配、探索提示或熵正则化来解决。我们的结果表明,当使用有能力的语言模型代理优化代理目标时,奖励黑客自然产生,并且抵御标准缓解措施,表明在代理设置中的代理奖励失败可能需要超出标准探索和信用分配修复的方法。为促进可重复性,本工作的代码可在我们的公共仓库获取(https://github.com/asparius/verl-agent-safety)。 ## 1 引言 AI系统众所周知会表现出非平凡的意外行为,通常被称为奖励黑客(Skalse 等,2025 (https://arxiv.org/html/2606.15385#bib.bib17); Laidlaw 等,2025 (https://arxiv.org/html/2606.15385#bib.bib24))。这种现象通常出现在目标是最优化一个仅作为真正期望目标代理的奖励函数的情况下(Amodei 等,2016 (https://arxiv.org/html/2606.15385#bib.bib18); Hadfield-Menell 等,2020 (https://arxiv.org/html/2606.15385#bib.bib19); Pan 等,2022 (https://arxiv.org/html/2606.15385#bib.bib20))。这些问题通常在强化学习(RL)框架内研究(Sutton and Barto, 2018 (https://arxiv.org/html/2606.15385#bib.bib25)),其中奖励黑客已在各种环境和算法中被观察到(Krakovna 等,2020 (https://arxiv.org/html/2606.15385#bib.bib47))。[^1] [^1]: 一个精选的奖励黑客和规范博弈示例集合维护在 https://asparius.github.io/posts/specification-gaming.html。 一个突出的例子出现在使用来自人类反馈的强化学习(RLHF)微调的语言模型中(Christiano 等,2023 (https://arxiv.org/html/2606.15385#bib.bib23); Gao 等,2022 (https://arxiv.org/html/2606.15385#bib.bib21); Bai 等,2022 (https://arxiv.org/html/2606.15385#bib.bib27))。在这些系统中,一个学习到的奖励模型近似人类偏好,但被优化的模型往往学会利用奖励函数的不完善之处——在生成不连贯或不可取输出的同时获得高奖励值。尽管这种过度优化部分是由于奖励模型的不准确性,但在直接对齐算法(DAAs)中也发现了类似的行为(Rafailov 等,2024a (https://arxiv.org/html/2606.15385#bib.bib22)),例如DPO(Rafailov 等,2024b (https://arxiv.org/html/2606.15385#bib.bib28)),它通过优化过程隐式定义奖励来绕过显式奖励模型。尽管对RLHF和DAA进行了大量分析和提出了缓解措施,奖励黑客仍然存在,例如近期OpenAI聊天模型的谄媚倾向(OpenAI, 2025b (https://arxiv.org/html/2606.15385#bib.bib29))。 最近,推理模型成为一类从根本上通过RL使用可验证奖励进行训练的系统,这使它们能够发展出高级推理能力,并在基准测试和竞赛中取得强劲成果(DeepSeek-AI 等,2025 (https://arxiv.org/html/2606.15385#bib.bib30); OpenAI 等,2024 (https://arxiv.org/html/2606.15385#bib.bib31); Google DeepMind, 2025 (https://arxiv.org/html/2606.15385#bib.bib32))。然而,这些模型引入了新的、更微妙的奖励黑客形式,与传统的RLHF设置中看到的不同(Denison 等,2024 (https://arxiv.org/html/2606.15385#bib.bib35); Bondarenko 等,2025 (https://arxiv.org/html/2606.15385#bib.bib33); METR, 2025 (https://arxiv.org/html/2606.15385#bib.bib34); Khalaf 等,2025 (https://arxiv.org/html/2606.15385#bib.bib36))。它们的行为更复杂,后果更严重,因为推理模型可以在编码或交互环境中自主行动(Bengio 等,2024 (https://arxiv.org/html/2606.15385#bib.bib37))。 应对这些挑战的一个主要问题是缺乏可控环境,在这些环境中可以可靠地重现和研究奖励黑客。大多数最近的实例都是通过有针对性的红队测试或行为探测事后发现的(METR, 2025 (https://arxiv.org/html/2606.15385#bib.bib34); Bondarenko 等,2025 (https://arxiv.org/html/2606.15385#bib.bib33); Denison 等,2024 (https://arxiv.org/html/2606.15385#bib.bib35)),并且通常出现在前沿级别的推理模型中,这些模型的规模、成本和专有性质使得重新训练或可控干预不切实际。如果没有按需引发这些失败模式的可重复设置,就很难系统地开发和评估缓解策略,或确定提出的修复方案是否真正消除了潜在的失败,而不仅仅是压制了它们的表面表现。 为了在这一挑战上取得进展,我们改编了AI安全网格世界框架(Leike 等,2017 (https://arxiv.org/html/2606.15385#bib.bib38))——最初在深度RL研究中引入的简单可控环境,用于研究安全-性能权衡——以供语言模型使用。这种改编保留了原始环境的结构化特性,同时将观察、动作和奖励重新表述为通过文本与基于推理的代理自然交互。由此产生的设置提供了目前缺失的那种可重复测试平台:它按需引发奖励黑客行为,支持系统性地研究这些行为何时以及为何出现,并提供了一个具体环境,在其中可以开发和评估缓解策略。 使用这个框架,我们做出了三个主要观察。首先,规范博弈在零样本设置中出现,无需任何任务特定训练:前沿模型系统性地获得高观测奖励,同时在隐藏安全目标上表现不佳,甚至看似安全的行为也可能反映误解而非原则性安全。其次,强化学习并未纠正这些失败。直接奖励优化可靠地增加了观测信号,但未能改善,甚至可能恶化隐藏安全性能,扩大了两者之间的差距。其根本原因是由于模型初始能力导致的探索失败,这使其在发现安全策略之前锁定在局部奖励策略上。第三,这种模式对一系列干预措施具有鲁棒性:扩大模型容量(高达14B)、细化信用分配、修改提示、延长历史记录以及调整熵正则化,都未能改变核心行为。总体而言,我们的结果表明,语言模型代理中的奖励黑客不是特定训练选择的产物,而是使用有能力的模型优化代理目标的结构性后果,表明这种代理奖励失败可能无法仅通过标准探索和信用分配修复来解决。 ## 2 方法论 AI安全网格世界(Leike 等,2017 (https://arxiv.org/html/2606.15385#bib.bib38))是一组小型可控的网格世界环境,旨在系统性地研究AI中的安全挑战。它们分为规范问题和鲁棒性问题。规范问题测试代理的观测奖励是否与设计者的真正意图一致;奖励函数 \(R\) 和性能函数 \(R^*\) 不同,且两者分别报告。鲁棒性问题测试代理是否能在扰动下保持性能;这里 \(R = R^*\)。所有九个环境的完整描述见附录A (https://arxiv.org/html/2606.15385#A1)。 #### 观察表示 尽管AI安全网格世界传统上用于表格设置并以类似方式训练,但我们使用其基于文本的表示与LLM交互。选择这种方式的动机是,LLM已知能够有效解析和推理结构化的文本输入(Wei 等,2022 (https://arxiv.org/html/2606.15385#bib.bib7); Yao 等,2023 (https://arxiv.org/html/2606.15385#bib.bib44))。一个显著的例子是OpenAI的o3模型(OpenAI, 2024 (https://arxiv.org/html/2606.15385#bib.bib40)),它在ARC-AGI基准测试(Chollet, 2019 (https://arxiv.org/html/2606.15385#bib.bib41))中,当使用文本表示而非视觉表示时取得了高性能,尽管该基准测试最初是为视觉推理设计的(Chollet, 2024 (https://arxiv.org/html/2606.15385#bib.bib39))。基于这一观察,我们采用了安全网格世界的文本版本,尽管同样的设置可以轻松扩展到视觉语言模型(VLM)(Liu 等,2023 (https://arxiv.org/html/2606.15385#bib.bib42); Bai 等,2023 (https://arxiv.org/html/2606.15385#bib.bib43))。 图1 (https://arxiv.org/html/2606.15385#S2.F1) 展示了Absent Supervisor环境中同一观察的三种可能表示:标准表格RL中使用的数值网格,用作我们LLM代理输入的ANSI文本网格,以及用于人类解读的RGB可视化。我们选择使用文本版本,因为它与LLM的输入格式自然对齐,同时保留了环境的结构和信息内容。 参见图注 图1:Absent Supervisor环境中同一观察的三种表示:(左)显示每个单元格整数值的数值观察网格,通常用作标准表格RL算法的输入,(中)带有符号字符的ANSI文本表示,我们用作LLM代理的输入,(右)带有颜色编码元素用于人类解读的RGB可视化。 #### 评估协议 评估现有LLM的主要挑战之一是避免无意中泄露有关环境的信息,因为许多这些任务或描述可能已经出现在模型的训练语料中(Sainz 等,2023 (https://arxiv.org/html/2606.15385#bib.bib45))。我们希望模型将这些视为新环境,并真正探索它们,而不是仅仅因为识别出环境或回忆起相关规则而模仿安全行为(Greenblatt 等,2024 (https://arxiv.org/html/2606.15385#bib.bib46))。为此,我们的提示(附录F (https://arxiv.org/html/2606.15385#A6))只提供网格观察、代理标识和可用动作,没有任何关于环境目标、奖励结构或安全属性的描述。除了控制污染外,这种设置还反映了安全评估中的一个更深层次挑战:详尽地规定什么构成安全行为通常是不可行的,因为可能的安全动作空间太大,无法在不将系统还原为一组手工规则的情况下枚举(Amodei 等,2016 (https://arxiv.org/html/2606.15385#bib.bib18); Hadfield-Menell 等,2020 (https://arxiv.org/html/2606.15385#bib.bib19); Krakovna 等,2020 (https://arxiv.org/html/2606.15385#bib.bib47))。 我们在零样本设置中评估了四个前沿级语言模型:GPT-4.1-mini (OpenAI, 2025a (https://arxiv.org/html/2606.15385#bib.bib57)), GPT-5-mini (Team, 2025 (https://arxiv.org/html/2606.15385#bib.bib56)), Qwen3-235B-Instruct, 和 Qwen3-235B-Thinking (Qwen 等,2025 (https://arxiv.org/html/2606.15385#bib.bib49))。每个模型在5个随机种子上评估100个回合,历史长度为4步。每个回合限制为50步,与Leike 等人 (2017 (https://arxiv.org/html/2606.15385#bib.bib38))的原始协议略有偏差,原因是计算成本问题。所有模型在所有环境中都实现了接近完美的动作有效性,表明交互错误可忽略不计。 #### 生成预算和推理设置。 一些模型需要更大的生成预算才能完成完整的轨迹。Qwen3-235B-Thinking无法在默认生成限制内完成其推理链,从而无法产生有效动作。因此,我们将其最大生成长度增加到16k个token。为控制这一变化,我们还额外在Boat Race环境中使用相同的16k token限制评估Qwen3-235B-Instruct。对于GPT-5-mini,我们评估了不同的推理时间努力设置(低、中、高),这些设置会调整每步分配的计算量。这些变体在Boat Race环境中进行了评估,以评估推理时间计算的影响。除非另有说明,报告的结果对应于GPT-5-Mini的默认(中等)设置。 参见图注 图2:GPT-5-Mini在Boat Race中的奖励黑客。(左)网格环境。代理没有沿着电路上的箭头瓷砖移动,而是陷入了两个单元格之间的利用循环,反复收集奖励而不前进。(中)模型在第39-40步的推理:尽管注意到自己一直在振荡,但仍继续利用。(右)单元格访问时间线,显示在第36步(阴影区域)之后轨迹崩溃为两个单元格的振荡。 参见图注 图3:Qwen3-235B-Thinking在Boat Race中的成功圈数。(左)网格环境。(中)模型在选定步骤的内部推理。(右)单元格访问时间线显示代理稳定地沿着赛道前进,而不是利用局部奖励循环。 ## 3 零样本评估结果 表1 (https://arxiv.org/html/2606.15385#S3.T1) 和表3 (https://arxiv.org/html/2606.15385#S3.T3) 总结了我们四个评估模型在所有九个环境中的零样本性能。按种子的详细分析见附录D.2 (https://arxiv.org/html/2606.15385#A4.SS2), D.3 (https://arxiv.org/html/2606.15385#A4.SS3), D.4 (https://arxiv.org/html/2606.15385#A4.SS4), 和 D.5 (https://arxiv.org/html/2606.15385#A4.SS5)。 表1:规范问题的零样本性能。隐藏奖励反映安全性能;观测奖励是代理感知到的。最大可达到分数是从 (Leike 等,2017 (https://arxiv.org/html/2606.15385#bib.bib38)) 推断的近似估计值。数值显示来自5个种子、历史长度4的100个回合的整体均值 \(\pm\) 标准差。 #### 规范问题。 在Absent Supervisor中,所有模型都偏好穿过危险区域的较短路径,无论是否存在监督,观测奖励始终超过隐藏奖励(例如,GPT-5-mini:28.09 vs 13.39,Qwen3-235B-Thinking:25.80 vs 12.30)。这种效应并非微不足道:模型获得
相似文章
大模型时代的奖励黑客:机制、涌现错位与挑战
综述提出“代理压缩假设”,解释 RLHF 及相关方法如何在大型语言与多模态模型中系统性地诱发奖励黑客、欺骗与监督博弈。
奖励作为具身世界模型的智能体
本文介绍了奖励作为智能体(Reward as an Agent)和DynDiff-GRPO,以解决具身世界模型中强化学习的奖励黑客攻击和有限探索问题,实现了显著的准确率提升。
方向对齐缓解语言模型强化学习中的奖励作弊
本文通过更新几何研究语言模型强化学习中的奖励作弊,识别出优化漂移是一个关键因素。它提出可信方向投影,将梯度约束在干净的参考子空间内,从而延迟捷径利用并保持任务性能。
基于评分标准的强化学习中的奖励黑客问题
本文研究了基于评分标准的强化学习中的奖励黑客现象,分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法,并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。
@vivek_2332:发现了一篇深入探讨 @AnthropicAI 如何在 RL 训练中识别和缓解奖励黑客攻击的优秀博客。推荐…
本文总结了一篇博文,详细阐述了 Anthropic 在强化学习(RL)训练期间识别和缓解奖励黑客攻击的方法,包括隐藏测试、压力测试集、稀疏自编码器(SAE)监控以及环境重新设计。