衡量古德哈特定律
摘要
OpenAI 的研究通过最佳 N 采样(best-of-n sampling)对古德哈特定律进行了形式化分析,提供了高效的估计器,用于衡量代理目标与实际目标的匹配程度,并通过 KL 散度量化优化努力。
古德哈特定律有句名言:“当一个指标成为目标时,它就不再是一个好指标。”虽然这最初来自经济学,但 OpenAI 在思考如何优化难以衡量或成本高昂的目标时,也需要应对这个问题。
查看缓存全文
缓存时间: 2026/04/20 14:46
# 衡量Goodhart's定律
来源:https://openai.com/index/measuring-goodharts-law/
让我们更正式地研究best-of-n采样。假设我们有一个样本空间\(S\)(例如可能的问答对集合)、一个定义在\(S\)上的概率分布\(P\)、一个真实目标(或“奖励”)\(R_{\text{true}}: S \to \mathbb{R}\),以及一个代理目标\(R_{\text{proxy}}: S \to \mathbb{R}\)。假设我们以某种方式优化\(R_{\text{proxy}}\),从而得到一个新的分布\(P'\)。那么:
* 期望\(\mathbb{E}_{x' \sim P'}\left[R_{\text{true}}(x')\right]\)衡量了我们对真实目标的优化程度。
* KL散度(在新窗口打开)\(D_{\text{KL}}(P' \parallel P)\)衡量了我们做了多少优化。例如,如果\(P'\)是通过从\(P\)中抽取第一个落在子集\(S' \subseteq S\)中的样本而得到的,那么这个KL散度就是来自\(P\)的样本落在\(S'\)中的负对数概率。
结果发现,在best-of-n采样的情况下,这两个量都可以使用来自\(P\)的样本进行高效估计。
我们先看期望。朴素的方法是使用蒙特卡洛估计器:多次运行best-of-n采样,测量这些样本上的真实目标,并对结果进行平均。然而,有一个更好的估计器。如果我们总共有\(N \geq n\)个来自\(P\)的样本,那么我们可以同时考虑这些样本中所有大小为\(n\)的子集,根据每个样本在代理目标下是最佳的子集数量进行加权,然后取加权平均的真实目标分数。该权重就是二项式系数\(\binom{k-1}{n-1}\),其中\(k\)是样本在代理目标下的排名,从1(最差)到\(N\)(最佳)。(A(在新窗口打开))
这些权重的总和是\(\binom{N}{n}\),这给出了Hockey-stick恒等式(在新窗口打开)的一个证明。关于此处描述的估计器的正式推导,请参见WebGPT论文(在新窗口打开)的附录I。
除了更有效地使用样本外,这还允许我们为不同的\(n\)值重用样本。至于KL散度,令人惊讶的是,它有一个适用于任何连续概率分布\(P\)(即只要\(P\)没有点质量)的精确公式。有人可能天真地猜测答案是\(\log n\),因为best-of-n类似于取分布的前\(1/n\),这大致正确:确切答案是\(\log n - \frac{n-1}{n}\)。(B(在新窗口打开))
这些估计器共同使我们能够轻松分析真实目标如何随应用于代理目标的优化量变化。
以下是来自WebGPT(https://openai.com/index/webgpt/)的一个真实例子:
相似文章
奖励模型过度优化的标度律
OpenAI 研究人员通过实验研究了奖励模型过度优化对性能的影响,建立了标度律来说明代理奖励优化与真实性能之间的关系如何随优化方法变化,并与模型规模成可预测的关系。
BiasGRPO:通过群体相对策略优化稳定高方差奖励环境中的偏见缓解
BiasGRPO 提出了一种利用群体相对策略优化(GRPO)的框架,通过对采样补全结果的奖励进行归一化,稳定 LLM 中社会偏见的缓解过程,在多个基准测试上优于 DPO 和 PPO。作者还发布了一个计算高效的偏见奖励模型,可无缝集成到多目标 RLHF 流水线中。
Hölder策略优化
HölderPO 引入了一种通用策略优化框架,利用 Hölder 均值进行 GRPO 中的词元级概率聚合,并采用动态退火策略来平衡梯度集中与方差。该方法在数学基准测试中取得了最先进的结果(平均 54.9%,相对 GRPO 提升 7.2%),并在 ALFWorld 上实现了 93.8% 的成功率。
大模型时代的奖励黑客:机制、涌现错位与挑战
综述提出“代理压缩假设”,解释 RLHF 及相关方法如何在大型语言与多模态模型中系统性地诱发奖励黑客、欺骗与监督博弈。
TEMPO:通过模式分离策略优化实现时间强制,用于可信的大语言模型回测
提出TEMPO,一种策略优化方法,通过使用双模式奖励和基于GRPO的训练,训练大语言模型仅依据截止日期前的信息进行推理,将知识泄露降低2–13%,同时将任务性能提升6–13%。