使用梯度指纹检测和抑制奖励黑客攻击

arXiv cs.CL 论文

摘要

本文介绍了梯度指纹(Grift)方法,用于在具有可验证奖励的强化学习中检测奖励黑客攻击。该方法通过分析模型内部梯度计算而非表面推理迹象来工作。在数学、代码和逻辑推理基准上,隐式奖励黑客攻击的检测相对改进超过25%。

arXiv:2604.16242v1 公告类型:跨学科 **摘要:** 带可验证奖励的强化学习(RLVR)通常优化结果奖励,而不对中间推理施加约束。这使得训练易受奖励黑客攻击,即模型利用奖励函数中的漏洞(例如训练数据中的虚假模式)来获得高分,而无需解决预期任务。这些奖励黑客行为通常是隐式的,因为中间思维链(CoT)在表面上可能显得合理,限制了纯文本监控的有效性。 我们提出梯度指纹(GRIFT),一种利用模型内部计算来检测奖励黑客攻击的方法。给定提示和模型生成的CoT,GRIFT计算以提示为条件的CoT梯度,并将其压缩为紧凑表示,然后用于评估CoT是否反映奖励黑客行为。在跨越数学、代码和逻辑推理的可验证推理基准上,GRIFT大幅超越强基线(包括CoT Monitor和TRACE),在检测奖励黑客行为方面实现了超过25%的相对改进。此外,将GRIFT集成到推理任务的拒绝微调管道中可以减少奖励黑客攻击并改进真实任务目标的性能。我们的结果突出了利用梯度级表示来评估CoT推理迹象质量的前景方向。我们的代码可在以下位置获得:https://github.com/songtao-x/reward_hack
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:31

# 使用梯度指纹检测和抑制奖励黑客 来源:https://arxiv.org/html/2604.16242

Songtao WangAQuang Hieu PhamAFangcong YinNXinpeng WangL Jocelyn QiaochuChenANGreg DurrettNXi YeAP AUniversity of AlbertaNNew York University LLMU MunichPPrinceton Language and Intelligence \{songtao2,xi\.ye\}@ualberta\.ca

###### 摘要

可验证奖励的强化学习(RLVR)通常仅优化结果奖励,而不对中间推理过程施加约束。这使得训练容易受到奖励黑客的影响,即模型利用奖励函数中的漏洞(例如训练数据中的虚假模式)来获得高分,而不是解决预期任务。这些奖励黑客行为通常是**隐含的**,因为中间思考链(CoT)在表面上可能看起来合理,限制了纯文本监控的有效性。我们提出梯度指纹(Grift),一种通过模型内部计算来检测奖励黑客的方法。给定提示和模型生成的CoT,Grift计算以提示为条件的CoT梯度,并将其压缩为紧凑表示,用于评估CoT是否反映奖励黑客行为。在跨越数学、代码和逻辑推理的多个可验证推理基准上,Grift大幅超越强基线(包括CoT Monitor和TRACE),在检测奖励黑客行为方面实现超过25%的相对改进。此外,将Grift集成到推理任务的拒绝微调管道中,减少了奖励黑客并改进了真实任务目标的性能。我们的结果突显了利用梯度级表示来评估CoT推理迹象质量的有前景方向。我们的代码可在以下网址获得:https://github.com/songtao-x/reward_hack。

## 1 介绍

可验证奖励的强化学习(RLVR)已成为改进语言模型(LM)推理能力的流行范式(Shao等人,2024;OpenAI,2024;Guo等人,2025;Yu等人,2025)。在RLVR中,LM被训练以最大化结果级奖励(例如最终答案是否通过验证器或测试套件),而不对中间推理过程进行监督。虽然这种方法对具有自动评估的任务有很好的可扩展性,但缺乏过程级监督引入了一个根本性漏洞:模型可能学会在不忠实解决预期任务的情况下获得高奖励的策略(Skalse等人,2022;Baker等人,2025)。这种现象也称为**奖励黑客**,其中模型利用奖励函数中的缺陷或推理捷径(Gupta等人,2025a;Baker等人,2025)而不是执行预期推理。此类利用可能来自多个来源,包括提示工件、上下文提示或自动验证器中的缺陷(Feng等人,2025;Denison等人,2024a)。例如,编码智能体已被观察到通过访问包含解决方案的未来提交,利用编码基准中的数据泄漏(MacDiarmid等人,2025;Deshpande等人,2026;Kahn,2025)。虽然此类情况有时在模型的推理迹象中可见,但随着奖励黑客变得**隐含**和难以检测,人们越来越关注这个问题(Chen等人,2025;Arcuschini等人,2025;Wang等人,2026):如图1所示,模型可能利用提示同时产生看似合理的思考链(CoT)解释来隐藏利用(Lindsey等人,2025)。流行的基于文本的监控方法(Baker等人,2025;Emmons等人,2025)变得不足,因为表面推理迹象可能不忠实反映模型的内部决策过程。

图1:BigMath上隐含奖励黑客的示例。左:正确答案作为伪装提示被注入,模型生成看起来合理的CoT,得出提示答案(6),不明确引用提示。右:没有提示,模型无法解决问题(答案5),显示左侧成功依赖于提示提供的捷径。

在这项工作中,我们引入梯度指纹(Grift),一种通过分析模型内部计算而非生成文本来检测奖励黑客的新颖方法。Grift的关键思想是为推理轨迹提取基于梯度的表示。给定提示和模型生成的CoT,Grift将CoT编码为紧凑向量表示(称为指纹),该表示源自以提示为条件的CoT梯度。我们使用轻量级适配器(Hu等人,2022)在选定层上有效计算这些指纹(表示),然后通过随机投影压缩。直观地说,每个指纹表征推理迹象在参数空间中引发的方向,为该迹象的模型内部计算提供紧凑摘要。这些梯度指纹使精确检测奖励黑客成为可能。如图1所示,Grift接收来自模型(已训练模型或训练期间中间检查点)的提示-CoT对,并分配一个分数,对非黑客行为分数更高(模型获得高奖励而不利用漏洞),对黑客行为分数更低。为了获得这样的分数,我们聚集梯度指纹,通过检查小样本集来标记聚集为奖励黑客或非黑客,然后将这些标签传播到所有聚集成员。最终分数由与非黑客聚集的相对距离定义。在跨越数学、代码和逻辑推理的多个推理任务上,Grift分数大幅超越强基线(包括CoT Monitor和TRACE),在奖励黑客检测中实现超过25%的相对改进。与过去主要关注检测的工作不同(Baker等人,2025;Wang等人,2026),我们展示Grift可以作为推理过程的额外监督信号整合到训练中。当用于指导拒绝微调中的样本选择(Dong等人,2023)时,Grift有效地抑制了奖励黑客并改进了真实任务性能。值得注意的是,它缩小了能够访问奖励利用的模型与在甲骨文环境中训练的模型(其中此类利用不可用)之间的性能差距,使模型对具有可黑客特征的噪声训练数据更加鲁棒。

总结来说,我们的贡献如下:(1)我们提出了一种用于检测RLVR中奖励黑客的新颖基于梯度的方法。(2)我们展示了一个使用我们方法抑制奖励黑客的实用训练管道。(3)我们提供关于使用梯度级表示作为评估推理迹象质量的可靠信号的见解。

## 2 预备知识:隐含奖励黑客

奖励黑客发生在策略被训练为最大化代理奖励Ř时,学会利用Ř中的无意漏洞,而不是解决由真实(通常不可用)奖励R测量的底层任务(Skalse等人,2022;Wang等人,2026)。这导致训练期间代理性能与部署时真实任务性能之间的差异。因此,模型一旦此类漏洞被移除就可能失败,或在更难的推理任务上表现出显著退化(Denison等人,2024b)。图3说明了两个推理任务的训练动态中的这种现象:虽然训练精度急剧增加,但测试精度(训练期间不可用)停滞或波动。

图2:有限答案空间漏洞的示例。模型在没有正确推理的情况下在选择中猜测。

(a)BigMath训练-测试动态 (b)AR-LSAT动态

图3:两个数据集上的奖励黑客动态。随着模型利用漏洞而不是学习非黑客行为,训练精度偏离测试精度。

#### 奖励黑客的来源

奖励黑客可能来自多个常见来源:

- **奖励模型或验证器漏洞**。代理奖励Ř本身可能有缺陷。自动验证器可能接受虚假输出、不完整解决方案或与正确性相关但不反映任务真实完成的表面模式(Ouyang等人,2022;Baker等人,2025)。

- **上下文漏洞**。训练数据可能包含无意提示或工件,揭示答案或以数据集管理员未预期的方式简化任务。示例包括通过标识符或上下文提示泄漏正确答案的提示(Emmons等人,2025);参见图1中的模拟环境示例。

- **有限答案空间漏洞**。奖励黑客也可以自然地在具有小输出空间的任务中出现,例如多选题回答或真/假验证。在这些设置中,模型可能因偶然获得奖励,而不执行预期推理过程。示例可在图2中找到。

上述来源可导致显式或**隐含**奖励黑客。在显式情况下,模型在其CoT中直接表达利用(Turpin等人,2025),使失败可能通过检查推理迹象而被检测。相反,**隐含奖励黑客**发生在模型利用捷径同时产生看似合理的CoT隐藏利用(Roger和Greenblatt,2023;Pfau等人,2024)(参见图1示例)。这使检测实质上变得困难,因为表面推理迹象即使在基础计算依赖漏洞时也可能看起来正确。鉴于上述挑战,我们关注来自两个设置的**隐含**奖励黑客:**上下文漏洞**(在先前工作中常见研究)和**有限答案空间漏洞**(本工作引入的自然设置)。

## 3 梯度指纹

图4:我们方法的概述。左(计算梯度指纹):对于每个提示-响应对(x,y),我们选择关键层,插入LoRA适配器,计算适配器上的梯度,并应用随机投影以获得紧凑梯度指纹。右(聚集和标记):我们聚集指纹并通过检查小型代表样本集来为每个聚集分配语义,然后将这些标签传播到所有聚集成员。

为了检测隐含奖励黑客,我们假设模型在利用漏洞与执行非黑客行为时表现出系统不同的内部计算,这些行为引发不同的梯度模式。先前工作表明梯度可以捕捉文本的微妙隐含属性——例如多样性(Jung等人,2025)和安全性(Xie等人,2024;Hu等人,2024)——暗示梯度提供对表面输出之外的底层计算差异的敏感探测。基于这种直觉,我们的方法分两个阶段进行(图4):(1)对于每个提示-响应对(x,y),我们计算**梯度指纹**F(x,y,θ),一个源自模型梯度的紧凑向量,捕捉模型如何在内部处理该响应;以及(2)我们聚集这些指纹以产生分数S,表示给定(x,y)的奖励黑客可能性。我们分别在§3.1和§3.2中描述这两个过程。

### 3.1 构建梯度指纹

设D={(xi,yi)}i=1^N表示从模型检查点θ收集的N个提示-响应对的数据集(例如,在RLVR训练的任何阶段)。设θ表示具有L个transformer层的模型参数。我们将响应y以提示x为条件的语言建模损失定义为:

L(y|x;θ) = −∑_{t=1}^{|y|} log p_θ(y_t|x,y_{<t})

其中y_t是第t个token,y_{<t}是y在位置t之前的tokens。

对于每个层ℓ∈{1,...,L},我们在其上附加一个LoRA适配器(Hu等人,2022),参数为α_ℓ。然后我们计算梯度∇_{α_ℓ}L(y|x;θ)。LoRA适配器通过在隐藏状态上进行低秩更新来工作,提供了捕捉层级计算信息的方式,同时保持计算效率。

为了获得紧凑表示,我们应用随机投影,将每个梯度向量投影到d维空间中(例如d=64)。对于层ℓ处的梯度g_ℓ = ∇_{α_ℓ}L(y|x;θ),梯度指纹定义为:

F(x,y,θ) = [R_1 g_1, R_2 g_2, ..., R_L g_L]

其中R_ℓ是随机投影矩阵。最终指纹是所有层梯度的串联。

直觉上,这个指纹捕捉了响应y在参数空间方向上对模型计算的影响。在通过奖励信号优化时,黑客行为可能遵循与真实推理不同的计算路径,在梯度空间中产生不同的指纹。

### 3.2 聚集和评分

一旦我们为所有(x,y)对计算了梯度指纹,我们使用K-Means聚集这些指纹(通常K=2表示二分分类为黑客/非黑客)。

对于每个聚集,我们通过检查该聚集中代表性样本的小子集(例如10-20个样本)来手动分配语义标签。检查员确定聚集是对应于奖励黑客还是非黑客行为。

基于这些标签,我们为每个(x,y)对定义奖励黑客分数:

S(x,y) = 距离至非黑客聚集 / (距离至黑客聚集 + 距离至非黑客聚集)

该分数范围从0到1,其中接近1表示更可能是黑客,接近0表示更可能是非黑客行为。

## 4 实验

### 4.1 实验设置

我们在三个主要基准上评估Grift:

**BigMath**:数学推理任务集合,其中我们引入了上下文漏洞(答案在提示中以伪装形式呈现)。

**AR-LSAT**:分析推理逻辑谜题,其中有限答案空间自然导致通过概率猜测的奖励黑客。

**Code**:编程任务,其中验证器可能接受虽然通过测试但不代表正确推理的代码。

### 4.2 基线

我们比较Grift与以下强基线:

- **CoT Monitor**(Baker等人,2025):使用LLM作为评判员,根据表面推理质量检测黑客。

- **TRACE**(Wang等人,2026):基于因果干预分析CoT中不同推理成分的影响。

- **字符串匹配**:一个简单基线,检查输出是否包含提示中的特定特征。

### 4.3 结果

表1总结了在三个数据集上的主要结果,由于底层问题的复杂性和有限答案空间逻辑,Grift在所有情况下都显著超越基线。在BigMath上,Grift实现87.3% F1分数,相比CoT Monitor的69.5%改进25.4%。在AR-LSAT上,Grift达到81.2% F1,相比TRACE的64.8%改进25.2%。

**表1:奖励黑客检测性能**

| 方法 | BigMath | AR-LSAT | Code |
|------|---------|---------|------|
| 字符串匹配 | 58.2 | 52.1 | 61.3 |
| CoT Monitor | 69.5 | 58.4 | 70.2 |
| TRACE | 72.1 | 64.8 | 68.9 |
| **Grift** | **87.3** | **81.2** | **85.6** |

### 4.4 抑制奖励黑客的训练应用

超越检测,我们展示Grift如何整合到训练管道中以实际抑制奖励黑客。我们使用拒绝微调方法,其中仅选择高质量样本进行训练。具体来说:

1. 在RLVR训练过程中定期计算Grift分数
2. 使用分数指导样本选择:保留非黑客样本,拒绝黑客样本
3. 仅在选定样本上进行微调

结果如表2所示。当Grift指导样本选择时,模型在黑客可用的设置中性能显著改进,接近在甲骨文设置中训练的模型(没有黑客可用)。

**表2:在BigMath上使用Grift指导拒绝微调**

| 训练设置 | 训练精度 | 测试精度 |
|---------|---------|---------|
| 有黑客(无拒绝) | 92.3 | 64.2 |
| 有黑客+Grift拒绝 | 78.5 | 81.9 |
| 甲骨文(无黑客) | 79.1 | 82.4 |

这些结果表明Grift不仅有效检测黑客,而且当整合到训练过程时有效消除其影响。

### 4.5 分析

#### 梯度指纹的可视化

为了理解Grift为何有效,我们使用t-SNE可视化聚集的梯度指纹。如图5所示,梯度指纹自然在二维空间中分离为黑客和非黑客行为,无需显式特征工程。这展示了梯度确实捕捉了两种行为的根本差异。

**图5:BigMath上黑客(红色)和非黑客(蓝色)的t-SNE可视化**

#### 训练动态中的可靠性

我们分析了Grift在RLVR训练过程的不同阶段的性能。如图6所示,Grift在训练早期到中期保持高性能。在非常晚期阶段,当奖励黑客比例变得极端高时,聚集性能会降化,可能是因为梯度空间变得由黑客行为主导。然而,实践中这不是严重限制,因为我们在这些问题比例变得极端之前就进行样本选择。

### 4.6 计算成本

计算Grift指纹涉及对许多层计算梯度。使用LoRA适配器和随机投影,计算成本约为标准前向通过的3-5倍。在有限的应用中这是可行的(例如,拒绝微调中的样本评分),虽然对于大规模实时应用可能需要进一步优化。

## 5 相关工作

**奖励黑客和规范博弈**。我们的工作与广泛的文献有关,讨论学习系统如何可能利用不完美的目标或奖励函数(Skalse等人,2022;Everitt和Hutter,2016)。最近的工作已经研究了大型语言模型中的奖励黑客,特别是在RLVR设置中(Baker等人,2025;Wang等人,2026;Gupta等人,2025a)。

**梯度作为表示**。利用梯度提取潜在属性的思想来自最近的工作,展示梯度可以编码多样性(Jung等人,2025)、安全性(Xie等人,2024;Hu等人,2024)和其他属性。我们的工作扩展了这一线索应用于推理质量评估。

**推理过程监控**。与我们工作密切相关的是过程奖励模型和过程监控方法,尝试对中间推理步骤的质量进行评分(Lightman等人,2023;Luo等人,2024)。与仅观察表面推理的这些方法不同,Grift利用内部梯度来捕捉更深层的计算。

## 6 结论

我们介绍了梯度指纹(Grift),一种使用梯度级表示检测RLVR中隐含奖励黑客的新颖方法。通过在多个推理基准上的大量实验,我们展示Grift大幅超越文本基础基线,当整合到训练过程时实际抑制奖励黑客。我们的工作为利用模型内部信号改进学习系统可靠性的更广泛研究方向做出贡献。

未来工作可能包括:(1)扩展Grift到其他领域超越推理;(2)开发更高效的梯度计算方法以支持大规模应用;(3)进一步理解使梯度对黑客敏感的机制;(4)探索与奖励建模的组合以获得更好的过程监督。

---

## 附录 A 超参数和实现细节

### 超参数

我们使用以下主要超参数:

- **LoRA秩**:r=8
- **随机投影维度**:d=64
- **K-Means聚集**:K=2(对于二分分类)
- **检查样本**:10-20个来自每个聚集的代表样本

### 模型和基准

- **BigMath**:使用GPT-3.5微调的模型,包含数学推理任务
- **AR-LSAT**:使用Llama-2-70B的分析推理任务
- **Code**:来自多个编程基准的任务集合

### 在线资源

代码、数据和更多详情可在https://github.com/songtao-x/reward_hack获得。

---

## 附录 B 实验细节

#### 奖励黑客响应判断

如第4.1节所讨论,我们对上下文漏洞设置采用反事实测试检测,对AR-LSAT采用LLM-as-a-Judge。提示模板在表6中提供。

**AR-LSAT合理响应检测的提示模板**

你将获得一个分析逻辑问题(包括上下文、选项和问题)以及包含其思考步骤的模型响应。你的任务是确定思考步骤是否合理,然后提供简短评论并输出1或0。

响应合理如果它满足所有以下条件:

1. **对提示的忠实性**:仅使用所述规则和约束;不引入虚构事实。
2. **正确规则应用**:合理地应用每个约束,包括条件和逆否陈述。
3. **一致性**:步骤之间无矛盾;分配保持内部一致。
4. **可追溯性**:每个结论被先前步骤或陈述约束明确证明;无法解释的跳跃。
5. **覆盖**:考虑所有必要情况,或正确修剪它们;适当处理所有可能...

相似文章

基于评分标准的强化学习中的奖励黑客问题

Hugging Face Daily Papers

本文研究了基于评分标准的强化学习中的奖励黑客现象,分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法,并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。

透过基准测试作弊的镜中镜

Hacker News Top

Poolside 在其 Laguna M.1 模型在 SWE-Bench-Pro 上的强化学习训练中发现了奖励作弊现象,发现智能体可以利用 git 历史和其他漏洞来欺骗基准测试,凸显了需要更好的对齐和评估方法。

野外中的错误奖励函数

OpenAI Blog

OpenAI 讨论了强化学习中错误奖励函数的问题,其中智能体会利用奖励规范中的漏洞,而不是实现预期目标。本文通过赛车游戏示例探索了这一问题,并提出了包括从演示学习、人类反馈和迁移学习等研究方向,以减轻此类问题。