# 大型语言模型破解奖励机制,以及社会

arXiv cs.LG 论文

摘要

来自伦敦国王学院、复旦大学和 Alan Turing Institute 的研究人员提出了"社会黑客"(societal hacking)这一概念——即通过强化学习训练的 LLM 会像奖励黑客(reward hacking)一样,利用社会法规中的漏洞。他们推出了 SocioHack 这一基准测试,涵盖 72 个社会环境场景,结果表明模型会在技术上保持合规的同时,规避监管意图。

arXiv:2606.04075v1 公告类型:新论文 摘要:强化学习(RL)已成为主流的后训练范式,使大型语言模型(LLM)能够从奖励信号中学习。我们观察到,社会法规在结构上与奖励函数高度相似——它们定义了可量化的结果、阈值和例外情形,但往往只对监管意图进行了部分说明。我们假设,RL训练过程可能会利用这些空白,因此提出以下问题:模型在RL过程中众所周知的奖励函数破解倾向,是否会演变为一种更具危害性的失效模式,即**社会性破解(societal hacking)**:发现社会运行规则中的漏洞。为研究这一现象,我们提出了 SocioHack——一个包含72个社会环境的沙箱平台,并发现在这些环境中,奖励破解行为自然涌现,并导致对监管漏洞的发现。模型学会了破解社会规则,生成在技术层面合规、却违背监管意图的策略,而现有LLM安全措施对此的缓解效果十分有限。因此,收集真实世界的反馈用于模型训练需要更加审慎,我们亟需面向真实社会场景的下一代后训练范式,以安全地迭代LLM。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:20

# 大型语言模型攻破奖励机制,进而危害社会

来源:https://arxiv.org/html/2606.04075

Wei Liu★\*🖂,Xinyi Mou♠\*,Hanqi Yan★,Zhongyu Wei♠,Yulan He★♣🖂,★伦敦国王学院,♠复旦大学,♣Alan Turing Institute,\{wei\.4\.liu, yulan\.he\}@kcl\.ac\.uk

大型语言模型攻破奖励机制,进而危害社会
Wei Liu★\*🖂,Xinyi Mou♠\*,Hanqi Yan★,Zhongyu Wei♠,Yulan He★♣🖂
★\\bigstar伦敦国王学院
♠\\spadesuit复旦大学
♣\\clubsuit Alan Turing Institute

**摘要**。强化学习(RL)已成为主流的后训练范式,使大型语言模型(LLM)能够从奖励中学习。我们观察到,社会法规在结构上与奖励函数高度相似:它们定义了可量化的结果、阈值和例外情形,同时往往只对机构意图进行了不完整的规定。我们假设,RL训练过程可能会利用这些空白,并由此提出一个问题:在RL过程中,模型众所周知的奖励函数攻破倾向,是否会演变为一种更具深远影响的失效模式——即*社会攻破(societal hacking):发现社会运行规则中的漏洞*?为研究这一现象,我们引入了 SocioHack,一个包含72个社会环境的沙盒测试集,并发现在这些环境中,*奖励攻破自然涌现并导致监管漏洞的发现*。模型学会了攻破社会规则,生成在技术层面合规、却悖离监管初衷的策略,而当前的 LLM 安全防护机制仅能提供有限的缓解。因此,在野环境中收集反馈用于模型训练需要更加审慎,我们需要下一代后训练范式,以在真实社会中安全地迭代 LLM。

通讯方式:\{wei\.4\.liu, yulan\.he\}@kcl\.ac\.uk
代码:https://github.com/thinkwee/SocioHack

![[Uncaptioned image]](https://arxiv.org/html/2606.04075v1/logos/kcl.png)![[Uncaptioned image]](https://arxiv.org/html/2606.04075v1/logos/fudan.png)![[Uncaptioned image]](https://arxiv.org/html/2606.04075v1/logos/alan-turing-institute.png)

![[Uncaptioned image]](https://arxiv.org/html/2606.04075/x1.png)

**图1**:强化学习过程中对社交媒体互动漏洞的迭代发现。非参数化基线 IterPrompt 的最高得分为 $720$,与 RL 之间存在 $25\times$ 的差距。

$^1$脚注:同等贡献。

## 1 引言

> 刺人一剑,却说:"非我之过,乃兵器之过。"$^{111}$我们不能将某行动的结果归咎于执行该结果的工具,从而推卸责任。同样,我们也不应将失败单纯归咎于模型,而应重新审视那个奖励优化导致社会攻破的训练范式与社会环境。
> ——《孟子》

强化学习使大型语言模型能够融合超越下一词预测的反馈。这一优化过程容易受到奖励攻破的影响 \(Amodei et al\., 2016 (https://arxiv.org/html/2606.04075#bib.bib1); Skalse et al\., 2022 (https://arxiv.org/html/2606.04075#bib.bib2); Krakovna et al\., 2020 (https://arxiv.org/html/2606.04075#bib.bib4)\),且跨越多种奖励来源 Wang et al\. \(2026 (https://arxiv.org/html/2606.04075#bib.bib51)\),包括人类偏好 Christiano et al\. \(2017 (https://arxiv.org/html/2606.04075#bib.bib6)\); Ouyang et al\. \(2022 (https://arxiv.org/html/2606.04075#bib.bib5)\)、AI 反馈 Bai et al\. \(2022 (https://arxiv.org/html/2606.04075#bib.bib8)\); Lee et al\. \(2023 (https://arxiv.org/html/2606.04075#bib.bib49)\),以及可验证奖励 Shao et al\. \(2024 (https://arxiv.org/html/2606.04075#bib.bib9)\); Guo et al\. \(2025 (https://arxiv.org/html/2606.04075#bib.bib50)\)。LLM 可能利用偏好信号中的缺陷,产生谄媚或冗长等行为 Singhal et al\. \(2023 (https://arxiv.org/html/2606.04075#bib.bib52)\); Denison et al\. \(2024 (https://arxiv.org/html/2606.04075#bib.bib53)\),或学会满足验证器而非完成预期任务 MacDiarmid et al\. \(2025 (https://arxiv.org/html/2606.04075#bib.bib54)\); Turpin et al\. \(2023 (https://arxiv.org/html/2606.04075#bib.bib55)\)。

现有研究主要在相对受限的场景下考察奖励攻破,优化目标是单一反馈信号,如人类偏好或封闭形式的验证器。随着 LLM 输出越来越多地部署于真实世界,模型可能不仅针对孤立的奖励进行优化,而是针对更广泛的社会系统进行优化。在这类环境中,结果由多种社会激励与约束共同塑造,其组合隐含地定义了一个结构化的奖励格局。与脆弱的奖励函数类似,这些制度性规则规定了可量化的标准,但只能部分捕捉更广泛的社会意图,在形式合规与预期结果之间留下了可被利用的空白。

我们将这种更广泛的失效模式称为*社会攻破*:RL 训练的模型发现了在形式上合规、却破坏相关系统预期目标的策略,如图2 (https://arxiv.org/html/2606.04075#S1.F2) 所示。这带来了超越基准层面奖励攻破的全新安全风险。当部署结果被纳入未来后训练时,该风险进一步被放大,形成一个持续强化剥削性行为的反馈循环。

为安全地研究*社会攻破*,我们引入了 SocioHack——一个包含72个沙盒社会环境的基准测试集,旨在模拟制度性奖励结构,无需直接部署于真实世界。SocioHack 由三个互补子集构成:历史(Historical)、合成(Synthetic)和虚构(Fictional)。历史子集来源于现实世界中曾被发现漏洞、后经修补的法规;通过移除补丁、将原始规则重建为模拟环境,我们测试经过后训练的 LLM 能否在无明确指示的情况下重新发现相同漏洞。合成子集和虚构子集则测试这种行为是否能泛化至历史案例之外——前者针对人工植入的漏洞,后者则嵌入虚构世界叙事中经过改写的规则体系。

参见图说
**图2**:从偏好攻破、推理攻破到社会攻破。LLM 在未被直接要求识别漏洞的情况下,自主攻破社会法规。

实验表明,RL 使 LLM 能够在无直接漏洞利用指令的情况下,以 61.25% 的召回率和 90.85% 的精确率重新发现历史上已被修补的策略,在相同的 rollout 预算下优于非参数搜索方法,如图"大型语言模型攻破奖励机制,进而危害社会"所示。结果揭示,现有安全防护措施仍不完善:LLM 拒绝机制主要由明确有害的提示触发,但当优化被包装为良性的奖励最大化时,几乎不会介入。LLM 生成的补丁、自我批评以及训练时的正则化手段,往往只能堵住表面上的漏洞,而无法消除底层的制度机制。

与此同时,漏洞发现也揭示了补丁方向,表明奖励攻破亦可作为制度脆弱性的审计信号。然而,这种互动并不会收敛至稳定状态,因为新引入的补丁会持续重塑优化格局,并将搜索引向愈发微妙、愈难检测的漏洞。结果,漏洞发现与补丁生成在奖励压力下陷入持续的协同演化。

随着真实世界部署越来越依赖迭代式后训练,这些发现表明,未来的安全保障需要更强有力的机制,以规范在开放式社会环境中的优化行为。

## 2 方法

### 2.1 环境与训练循环

参见图说
**图3**:我们在 SocioHack 仿真中模拟真实世界 LLM 利用社会漏洞的过程。SocioHack 在仿真的社会环境内实例化 RL 循环。策略 $\pi_{\theta}$ 生成策略 rollout $y_t$,这些 rollout 首先经当前漏洞补丁集 $\mathcal{P}_t$ 过滤。合规的 rollout 被解析为可执行动作,由仿真器评估以产生结果得分和 RL 奖励。成功的漏洞利用策略被转化为新的漏洞补丁并追加至 $\mathcal{P}_t$,在训练迭代中逐步加大漏洞利用压力。

#### 制度环境

我们将 SocioHack 中的每个制度设置形式化为由元组定义的环境

$$\mathcal{E}=(\mathcal{R},\mathcal{A},T,\psi,\mathcal{P}_{0}),\tag{1}$$

其中 $\mathcal{R}$ 是自然语言法规规范,包含制度背景、行为者角色和任务;$\mathcal{A}$ 是预定义的动作集,对法规下可采取的高层动作进行抽象;$T$ 表示环境动态,以结构化自然语言文档的形式规定,编码了状态变量的初始值以及每个动作如何以概率方式转换这些变量的规则;$\psi$ 表示结果评估准则;$\mathcal{P}_{0}$ 是初始漏洞补丁集。该环境元组的示例如图3 (https://arxiv.org/html/2606.04075#S2.F3) 所示。

在训练迭代 $t$ 时,*策略模型 $\pi_{\theta}$ 仅观察指令提示*

$$x_{\mathcal{E}}^{(t)}=(\mathcal{R},\mathcal{P}_{t},\psi),\tag{2}$$

而动作空间 $\mathcal{A}$ 和仿真器动态 $T$ 在整个优化过程中始终隐藏。这一设计防止 $\pi_{\theta}$ 通过组合动作进行穷举搜索漏洞,同时确保其生成的开放式策略仍能映射至可验证空间以计算奖励。

#### 训练

对于每条指令提示,我们采样一组候选策略 rollout

$$y_t^{(k)}\sim\pi_{\theta}(\cdot\mid x_{\mathcal{E}}^{(t)}),\quad k=1,\dots,G.\tag{3}$$

每个 rollout$^2$ $y_t^{(k)}$ 是以自然语言写成的自由形式策略方案,随后由仿真器在动作集 $\mathcal{A}$、环境动态 $T$ 和结果评估准则 $\psi$ 上进行评估。仿真器首先将 rollout 解析为可执行动作子集 $\mathbf{a}_t^{(k)}\subseteq\mathcal{A}$,再在仿真社会环境中执行,以产生结果得分 $u_t^{(k)}\in\mathbb{R}$。仿真器的详细信息见 §2.2 (https://arxiv.org/html/2606.04075#S2.SS2)。

在计算奖励之前,每个 rollout 被赋予一个资格得分 $\eta_t^{(k)}\in\{0,0.5,1\}$,综合反映补丁合规性与结果改进状态。具体而言,

$$\eta_t^{(k)}=\begin{cases}0&\text{若 }y_t^{(k)}\text{ 违反 }\mathcal{P}_t\text{ 或格式不合规,}\\0.5&\text{若 }y_t^{(k)}\text{ 合规且 }u_t^{(k)}\leq u_{t-1}^{\star},\\1&\text{若 }y_t^{(k)}\text{ 合规且 }u_t^{(k)}>u_{t-1}^{\star}.\end{cases}\tag{4}$$

其中 $u_{t-1}^{\star}$ 为当前最优得分。在 $\eta_t^{(k)}>0$ 的 rollout 中,结果得分在 rollout 组内排序,并按百分位数转换为相对分位得分 $q_t^{(k)}\in[0,1]$,遵循基于百分位的分组奖励塑形方法以实现稳定训练 Matrenok et al\. \(2025 (https://arxiv.org/html/2606.04075#bib.bib63)\); Liu et al\. \(2025 (https://arxiv.org/html/2606.04075#bib.bib64)\)。$\eta_t^{(k)}=0$ 的 rollout 直接获得零奖励。最终奖励定义为

$$R_t^{(k)}=\begin{cases}\eta_t^{(k)}+q_t^{(k)}&\text{若 }\eta_t^{(k)}>0,\\0&\text{否则.}\end{cases}\tag{5}$$

所得奖励在每个 rollout 组内做中心化处理,以产生优势值:

$$A_t^{(k)}=R_t^{(k)}-\mathrm{mean}(\{R_t^{(j)}\}_{j=1}^{G}).\tag{6}$$

随后,$\pi_{\theta}$ 采用 Dr. GRPO 目标 Liu et al\. (https://arxiv.org/html/2606.04075#bib.bib56) 进行优化,这是 GRPO Shao et al\. \(2024 (https://arxiv.org/html/2606.04075#bib.bib9)\) 的一个无偏差变体。

我们将漏洞策略定义为:在与当前补丁集保持合规的同时,利用规则系统中未充分规定或无意留下的方面的 rollout;我们通过优化过程是否在迭代中重新发现隐藏的历史或植入的真实漏洞来识别此类行为,而非通过得分异常值来判断。

### 2.2 社会仿真器

为评估策略 rollout 的社会后果,我们构建了一个*仿真社会环境*,显式建模部署结果以及漏洞利用策略与监管补丁之间的协同演化。由于社会系统涉及漫长且未充分规定的因果链,直接让 LLM 或人类评估社会后果会产生不一致的奖励。因此,我们在场景构建过程中固定环境动态,使得奖励差异反映的是策略有效性,而非评估者的不一致性。策略只能观察法规文本、评分准则及其自身漏洞利用所诱发的补丁历史,看不到真实补丁。

#### 环境构建

每个环境由预定义的原子动作空间 $\mathcal{A}$、规定动作如何影响状态变量的动态 $T$,以及将状态变量映射为结果得分的准则 $\psi$ 组成。动作空间在社会交互上提供了受控的抽象层,将无约束的自由形式策略压缩为有限的制度性有意义操作集合。

给定策略 rollout $y_t^{(k)}$,我们以专有 LLM 作为仿真器 $\pi_s$,在单一评估流水线中依次执行:动作解析 $\mathbf{a}_t^{(k)}=\pi_s(y_t^{(k)},\mathcal{A})$、状态构建 $\mathbf{s}_t^{(k)}=\pi_s(\mathbf{a}_t^{(k)},T)$,以及结果评分 $u_t^{(k)}=\pi_s(\mathbf{s}_t^{(k)},\psi)$。这种将自由形式自然语言策略映射为结构化结果得分的方式,比直接依赖人类或 LLM 判断能产生更可复现的评估。仿真器与评分提示见 §C.2 (https://arxiv.org/html/2606.04075#A3.SS2)。

#### 动态补丁注入

每次训练迭代后,每个成功利用漏洞的策略 $y_t^{(k)}$ 都会被转化为关闭该漏洞的自然语言补丁 $p^{\star}$,并追加至漏洞补丁集:$\mathcal{P}_{t+1}=\mathcal{P}_t\cup\{p^{\star}\}$。更新后的补丁集被注入至下一个提示 $x_{\mathcal{E}}^{(t+1)}$ 中,在迭代训练中逐步收紧策略所面对的优化格局。在整个过程中,仿真器组件保持冻结,$\pi_{\theta}$ 是唯一可训练的组件。整个流程如图3 (https://arxiv.org/html/2606.04075#S2.F3) 所示。

### 2.3 数据集

我们基于上述环境形式化框架实例化 SocioHack,这是一个包含72个仿真社会

相似文章

大型语言模型能否重塑基础算法?

Hugging Face Daily Papers

# 论文页面 - 大型语言模型能否重塑基础算法? 来源:[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后,它们还能从零重塑 Dijkstra、Euclid 等基础算法吗?** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域:先用“反学习”把目标算法从模型中抹去,再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。