密封审计上的有符号压缩进展具有古德哈特抗性

arXiv cs.LG 论文

摘要

本文形式化了密封审计上的有符号压缩进展作为具有古德哈特抗性的奖励的概念,证明了累积奖励可坍缩为真实的审计改进,并为有限审计面板提供了界限。它识别了失败模式并用实验验证了结果。

arXiv:2606.11417v1 公告类型:新 摘要:压缩进展是内在动机的一个长期提议:当智能体的世界模型在预测或压缩经验方面变得更好时给予奖励。民间说法认为这种奖励是“可信的”,因为它仅在学习时给予。我们将其精确化并证明它。如果内在奖励是固定密封审计损失的符号减少,即 r_t = E(theta_{t-1}) - E(theta_t),则累积奖励精确坍缩为终点审计改进,因此任何策略都无法在真实审计性能停滞或下降时无限推高奖励。对于有限审计面板,相同的结果成立,但有一个严格的假阳性预算:累积经验奖励最多为真实审计改进加上 2 Delta_n(F, delta),即模型类的均匀审计偏差。这是无时间范围的:一旦密封面板均匀地控制了该类,随时间推移的自适应不会带来任何成本。 该定理还识别了失败模式:如果进展被裁剪、在智能体自身流上评分、暴露于可重用面板上的高容量模型、或应用于使 Delta_n 变得无意义的神经类,则保证消失。我们提供了结构核心(坍缩、有限审计界、有限吉布斯和熵底)的 Lean 4 机械化实现,以及在 ARC-TGI 网格变换生成器上使用自适应保留攻击的实验套件。实验证实了理论:有限审计偏差按 n^{-0.527} 缩放;有符号进展抵抗了裁剪刷分、流泄漏和噪音电视好奇心;朴素的可复用审计可被黑盒标量反馈利用,而标准发布防御将攻击保持在 2 Delta_n 阈值以下。密封审计上的有符号压缩进展是真实改进的会计信号。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:47

# Signed Compression Progress on a Sealed Audit is Goodhart-Resistant
Source: https://arxiv.org/html/2606.11417

###### 摘要

压缩进度(compression progress)是一个长期被提议的内在动机方法:当智能体的世界模型更好地预测或压缩经验时,给予奖励。一种民间说法认为,这种奖励是“可信的”,因为它只在学习发生时支付。我们使这一说法精确化并加以证明。如果内在奖励是固定的密封审计损失(sealed-audit loss)的符号减少量:

\[
r_t^{\rm audit} = \mathcal{E}(\theta_{t-1}) - \mathcal{E}(\theta_t),
\]

那么累积奖励正好等于终点审计改进(endpoint audit improvement)的望远镜和(telescoping)。因此,任何策略都无法在真实审计性能停滞或退化的情况下无限期地推高奖励。对于有限审计面板(finite audit panels),同样的结果成立,但增加了一个严格的假阳性预算(false-positive budget):累积经验奖励至多等于真实审计改进加上 \( 2\Delta_n(\mathcal{F}, \delta) \),其中 \( \Delta_n \) 是模型类的一致审计偏差(uniform audit deviation)。这是无时间跨度的(horizon-free):一旦密封面板一致地控制了模型类,随时间变化的适应性不会带来额外成本。

该定理也指出了失效模式。如果进度被截断(clipped)、如果进度是根据智能体自身数据流评分的、如果可重复使用的有限面板暴露给高容量模型、或者如果神经类使得 \( \Delta_n \) 变得空洞(vacuous),则保证消失。我们提供了结构核心的 Lean 4 机械化(包括望远镜和、基于一致偏差的有限审计古德哈特抗性、有限吉布斯非负性以及熵底预算),并在 ARC-TGI 网格变换生成器上进行了实验套件,同时进行了适应性留出攻击(adaptive holdout attacks)。实验证实了理论:有限审计偏差按 \( n^{-0.527} \) 缩放;有符号进度能抵抗截断滥用(clip-farming)、数据流泄露(stream leakage)和噪声电视好奇心(noisy-TV curiosity);朴素的可重用审计可被黑盒标量反馈利用,而新鲜子采样(fresh subsampling)、阶梯化(laddering)、舍入(rounding)和一次性发布(one-shot release)则使攻击保持在 \( 2\Delta_n \) 阈值以下。这些结果划定了压缩进度具有古德哈特抗性的边界:*密封审计上的有符号压缩进度是真正改进的记账信号(accounting signal)。*

## 1 引言

基于预测或压缩进度的内在动机出现在 Schmidhuber 关于人工好奇心的工作以及后来的压缩进度兴趣理论中 [8 (https://arxiv.org/html/2606.11417#bib.bib8), 9 (https://arxiv.org/html/2606.11417#bib.bib9), 10 (https://arxiv.org/html/2606.11417#bib.bib10)]。奖励仅在智能体的模型改进时支付。这区分了可学习的规律性与不可压缩的噪声,并且应避免原始预测误差奖励所陷入的噪声电视(noisy-TV)病态问题。

但非正式的说法过于宽泛。一个学习智能体可以在自己最近选择的序列上改进,同时在目标分布上变得更差。如果奖励截断负进度,它可以忘记并重新学习相同的事实。如果重复的标量反馈泄露信息,它可能过拟合一个有限的验证集。它可以利用高容量模型类,直到名义上的留出集不再是留出集。这些是持续学习和递归自我改进中内在奖励所涉及的古德哈特通道(Goodhart channels)。

我们隔离了压缩进度主张成立的表征(representation)。设 \( \mathsf{Q} \) 是一个固定的审计分布,设 \( \mathcal{E}(\theta) = \mathbb{E}_{z \sim \mathsf{Q}} \ell(\theta, z) \) 是审计对数损失(audit log-loss)或任何有下界的适当评分损失(proper scoring loss)。定义有符号审计压缩进度为:

\[
r_t^{\rm audit} = \mathcal{E}(\theta_{t-1}) - \mathcal{E}(\theta_t).
\tag{1}
\]

那么整个奖励历史满足端点恒等式(endpoint identity):

\[
\sum_{t=1}^T r_t^{\rm audit} = \mathcal{E}(\theta_0) - \mathcal{E}(\theta_T).
\tag{2}
\]

因此,任何明显的长期奖励都必须以审计损失的真实减少为代价。这里的古德哈特抗性是测量框架(measurement frame)的一个属性:它之所以成立,是因为进度是针对固定审计损失评分的。

#### 贡献。

我们做出四项贡献。第一,我们定义了*有预算的古德哈特抗性(budgeted Goodhart resistance)*:如果累积奖励超过真实审计改进的量不超过一个有限假阳性预算 \( \Gamma \),则进度信号是可信的。精确密封审计压缩进度有 \( \Gamma = 0 \);有限面板有 \( \Gamma = 2\Delta_n \)。第二,我们在 Lean 4 中机械化(mechanize)了结构核心:精确望远镜和、基于一致偏差事件的有限审计古德哈特抗性、有限吉布斯非负性(finite Gibbs nonnegativity),以及不可压缩分量的熵底定理(entropy-floor theorem)。第三,我们将奖励信号与调度器分离:审计压缩进度提供可信奖励,而乘法权重 / EXP3 提供分配。第四,我们使用 ARC-TGI 任务生成器、RND [3 (https://arxiv.org/html/2606.11417#bib.bib3)]、ICM [7 (https://arxiv.org/html/2606.11417#bib.bib7)]、预测误差好奇心、有限审计集中性检查、数据流泄露、截断循环、可重用面板记忆化以及黑盒标量反馈留出攻击,进行了一组重点实验套件。

参见说明图 1:测量框架。训练数据可以自适应选择,但奖励仅根据固定审计损失的有符号变化计算。这使得内在奖励在密封审计上成为端点记账恒等式。

## 2 相关工作

#### 古德哈特定律与奖励黑客(reward hacking)。

优化代理目标直至其偏离所代表的真实目标是古德哈特定律 [14 (https://arxiv.org/html/2606.11417#bib.bib14)],其在学习智能体中的形式是奖励黑客或规范游戏(specification gaming)[11 (https://arxiv.org/html/2606.11417#bib.bib11), 13 (https://arxiv.org/html/2606.11417#bib.bib13), 18 (https://arxiv.org/html/2606.11417#bib.bib18), 15 (https://arxiv.org/html/2606.11417#bib.bib15)]。大部分文献刻画了固定代理目标何时不安全进行优化。我们固定测量框架并提出一个定量问题:进度信号何时能超过真实改进,超出多少?有预算的古德哈特抗性为压缩进度奖励提供了一个有限的假阳性预算,从而回答了这个问题。

#### 内在动机与压缩进度。

作为好奇心和创造力驱动力的压缩进度起源于 Schmidhuber [8 (https://arxiv.org/html/2606.11417#bib.bib8), 9 (https://arxiv.org/html/2606.11417#bib.bib9), 10 (https://arxiv.org/html/2606.11417#bib.bib10)]。预测误差和特征预测奖励 [7 (https://arxiv.org/html/2606.11417#bib.bib7)] 以及随机网络蒸馏 [3 (https://arxiv.org/html/2606.11417#bib.bib3)] 是标准的深度强化学习实现。这些奖励针对智能体自身数据流上的误差或新奇性进行评分。审计压缩进度则针对密封分布上的有符号误差减少进行评分,这产生了端点记账恒等式和熵底。

#### 自适应数据分析与留出集重用(holdout reuse)。

对有限验证集的重复查询会侵蚀其保证;可重用留出集(reusable holdout)和阶梯机制(Ladder mechanism)限制了这种侵蚀 [5 (https://arxiv.org/html/2606.11417#bib.bib5), 2 (https://arxiv.org/html/2606.11417#bib.bib2)],实证研究在真实排行榜和基准上测量了这种现象 [16 (https://arxiv.org/html/2606.11417#bib.bib16), 17 (https://arxiv.org/html/2606.11417#bib.bib17)]。有限面板预算 \( 2\Delta_n \) 是同一现象在审计压缩进度中的形式,我们的自适应标量反馈攻击结合标准发布防御实例化了这一点。

#### 适当评分规则(proper scoring rules)。

对数损失是严格适当的评分规则 [12 (https://arxiv.org/html/2606.11417#bib.bib12)],因此其群体最小化器是真实条件分布。熵底(定理 3 (https://arxiv.org/html/2606.11417#Thmtheorem3))指出该最小值等于条件熵,这就是纯粹随机分量仅携带有限压缩进度预算的原因。校准探测器(calibration probe)将这个适当评分信号与硬准确度(hard accuracy)区分开。

## 3 设定:审计压缩进度

设 \( \Theta \) 是模型状态的一个类,设 \( \ell: \Theta \times \mathcal{Z} \to \mathbb{R} \) 是一个有界或有下界的预测损失。在对数损失情况下,\( \ell(\theta, (x,y)) = -\log p_\theta(y \mid x) \)。在实验中我们使用概率下限(probability-floored)交叉熵:

\[
\ell_\varepsilon(\theta, (x,y)) = -\log \max\{\varepsilon, p_\theta(y \mid x)\},
\tag{3}
\]

其被 \( R = -\log \varepsilon \) 所界定。

###### 定义 1 (密封审计损失,Sealed audit loss)。

一个密封审计分布 \( \mathsf{Q} \) 独立于智能体的自适应训练轨迹固定,并且除了通过允许的审计发布机制外,不能被智能体选择、扭曲或检查。群体审计损失(population audit loss)为:

\[
\mathcal{E}(\theta) = \mathbb{E}_{z \sim \mathsf{Q}} \ell(\theta, z).
\tag{4}
\]

对于有限审计面板 \( A_n = (z_1, \dots, z_n) \),经验审计损失(empirical audit loss)为:

\[
\widehat{\mathcal{E}}_n(\theta) = \frac{1}{n} \sum_{i=1}^n \ell(\theta, z_i).
\tag{5}
\]

###### 定义 2 (有符号审计压缩进度,Signed audit compression progress)。

给定轨迹 \( \theta_0, \theta_1, \dots \),有符号审计压缩进度为:

\[
r_t^{\mathrm{CP}} = \mathcal{E}(\theta_{t-1}) - \mathcal{E}(\theta_t), \qquad \hat{r}_t^{\mathrm{CP}} = \widehat{\mathcal{E}}_n(\theta_{t-1}) - \widehat{\mathcal{E}}_n(\theta_t).
\tag{6}
\]

符号是定义的一部分:负进度会被计入智能体负债(charged back)。

###### 定义 3 (假阳性预算,False-positive budget)。

对于奖励信号 \( r_t \) 和真实审计损失 \( \mathcal{E} \),定义在时间跨度 \( T \) 上的奖励超出量(reward excess)为:

\[
\Gamma_T(r, \mathcal{E}) = \sum_{t=1}^T r_t - \big( \mathcal{E}(\theta_0) - \mathcal{E}(\theta_T) \big).
\tag{7}
\]

如果一个信号在某一类轨迹上满足:对于每个时间跨度 \( T \) 和该类中的每个允许轨迹,都有 \( \Gamma_T(r, \mathcal{E}) \le \Gamma \),则该信号是 \( \Gamma \)-古德哈特抗性的。精确审计压缩进度具有 \( \Gamma = 0 \);有限面板审计压缩进度在一致偏差事件上具有 \( \Gamma = 2\Delta_n \)。

这个条件比与学习相关性强:它限制了在没有真实审计改进的情况下可以获得的表现奖励。

## 4 定理

### 4.1 精确密封审计:零假阳性预算

###### 定理 1 (精确审计望远镜和与有限预算,Exact-audit telescoping and finite budget)。

设 \( \mathcal{E}: \Theta \to \mathbb{R} \) 且 \( \theta_t \) 为任意轨迹。定义 \( r_t = \mathcal{E}(\theta_{t-1}) - \mathcal{E}(\theta_t) \)。则对于每个时间跨度 \( T \),

\[
\sum_{t=1}^T r_t = \mathcal{E}(\theta_0) - \mathcal{E}(\theta_T).
\tag{8}
\]

如果 \( \mathcal{E}(\theta_T) \ge E_{\min} \),则

\[
\sum_{t=1}^T r_t \le \mathcal{E}(\theta_0) - E_{\min}.
\tag{9}
\]

因此,任何策略都无法使得累积有符号审计进度发散,而审计损失停滞或保持有下界。

###### 证明。

总和望远镜和:

\[
\sum_{t=1}^T \big( \mathcal{E}(\theta_{t-1}) - \mathcal{E}(\theta_t) \big) = \mathcal{E}(\theta_0) - \mathcal{E}(\theta_T).
\]

有界性陈述直接推出。该证明在 Lean 中机械化为 `cumCP_telescope`;有限预算形式为 `cumCP_le_of_lb`。∎

定理 1 (https://arxiv.org/html/2606.11417#Thmtheorem1) 的每个假设都是必要的:固定审计损失提供了一个可望远镜和的单一势能,有符号记账允许负项抵消,有下界则产生有限预算。

### 4.2 有限审计:\( 2\Delta_n \) 假阳性预算

一个可重复使用的有限审计面板并非自动在群体意义上密封;相关条件是一致偏差事件。

###### 定义 4 (一致审计偏差,Uniform audit deviation)。

对于类 \( \mathcal{F} \subseteq \Theta \),定义

\[
\Delta_n(\mathcal{F}) = \sup_{\theta \in \mathcal{F}} \big| \widehat{\mathcal{E}}_n(\theta) - \mathcal{E}(\theta) \big|.
\tag{10}
\]

如果 \( \Delta_n(\mathcal{F}) \le \Delta \),则称面板在 \( \mathcal{F} \) 上实现了偏差 \( \Delta \)。

###### 定理 2 (有限审计古德哈特抗性,Finite-audit Goodhart resistance)。

假设 \( \Delta_n(\mathcal{F}) \le \Delta \) 且对所有 \( t \le T \) 有 \( \theta_t \in \mathcal{F} \)。则

\[
\sum_{t=1}^T \hat{r}_t^{\mathrm{CP}} \le \sum_{t=1}^T r_t^{\mathrm{CP}} + 2\Delta = \mathcal{E}(\theta_0) - \mathcal{E}(\theta_T) + 2\Delta.
\tag{11}
\]

等价地,经验审计压缩进度具有至多 \( 2\Delta \) 的假阳性预算。

###### 证明。

由望远镜和,

\[
\sum_t \hat{r}_t = \widehat{\mathcal{E}}_n(\theta_0) - \widehat{\mathcal{E}}_n(\theta_T), \qquad \sum_t r_t = \mathcal{E}(\theta_0) - \mathcal{E}(\theta_T).
\]

一致偏差仅控制两个端点:

\[
\widehat{\mathcal{E}}_n(\theta_0) \le \mathcal{E}(\theta_0) + \Delta, \qquad \widehat{\mathcal{E}}_n(\theta_T) \ge \mathcal{E}(\theta_T) - \Delta.
\]

结合即得结果。这在 Lean 中机械化为 `finite_audit_goodhart`。∎

对 \( T \) 没有联合界(union bound):在有符号望远镜和后,自适应历史简化为端点控制。适应性的成本体现在证明面板对所达类实现了一致偏差事件;定理本身是无时间跨度的。

###### 推论 1 (有限专家,Finite experts)。

如果 \( |\mathcal{F}| = N \) 且 \( \ell \in [0, R] \),则在 i.i.d. 审计面板上,以至少 \( 1-\delta \) 的概率,

\[
\Delta_n(\mathcal{F}) \le R \sqrt{\frac{\log(2N/\delta)}{2n}},
\tag{12}
\]

因此

\[
\sum_{t=1}^T \hat{r}_t^{\mathrm{CP}} \le \mathcal{E}(\theta_0) - \mathcal{E}(\theta_T) + 2R \sqrt{\frac{\log(2N/\delta)}{2n}}.
\tag{13}
\]

###### 证明。

对每个固定模型应用双面霍夫丁不等式(two-sided Hoeffding)并对 \( \mathcal{F} \) 取联合界;然后调用定理 2 (https://arxiv.org/html/2606.11417#Thmtheorem2)。Lean 工件机械化了一个从实现的一致偏差事件到古德哈特抗性的确定性蕴含关系;这个概率实例化是标准有限类集中性推论。∎

对于无限类,将 \( N \) 替换为适当的覆盖数(covering number)、Rademacher 复杂度或 PAC-贝叶斯半径(PAC-Bayesian radius)。特别地,有界线性球(bounded linear balls)和有界 RKHS 球产生相同形式:只要有效审计容量(effective audit capacity)是有限的,就有一个有限的假阳性预算。通用神经网络仅通过其有效类大小或稳定性(effective class size or stability)进入该理论。如果所达类足够大以至于可以记忆可重复使用的审计面板,那么该界限变得空洞;这划定了有限审计抗性失效的边界。

### 4.3 熵底:为什么噪声电视(noisy TV)无法永远支付奖励

相似文章

衡量古德哈特定律

OpenAI Blog

OpenAI 的研究通过最佳 N 采样(best-of-n sampling)对古德哈特定律进行了形式化分析,提供了高效的估计器,用于衡量代理目标与实际目标的匹配程度,并通过 KL 散度量化优化努力。

当无基准存在时:验证无真实标签的LLM安全评分比较

Hugging Face Daily Papers

本文介绍了一个框架,用于在没有真实标签的情况下验证LLM安全评分比较,通过使用'工具有效性链'来建立部署证据。该方法通过一个名为SimpleAudit的本地优先工具在挪威安全包上进行了演示,并比较了Borealis和Gemma 3等模型。

基于评分标准的强化学习中的奖励黑客问题

Hugging Face Daily Papers

本文研究了基于评分标准的强化学习中的奖励黑客现象,分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法,并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。