衡量古德哈特定律

OpenAI Blog 论文

摘要

OpenAI 的研究通过最佳 N 采样(best-of-n sampling)对古德哈特定律进行了形式化分析,提供了高效的估计器,用于衡量代理目标与实际目标的匹配程度,并通过 KL 散度量化优化努力。

古德哈特定律有句名言:“当一个指标成为目标时,它就不再是一个好指标。”虽然这最初来自经济学,但 OpenAI 在思考如何优化难以衡量或成本高昂的目标时,也需要应对这个问题。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:46

# 衡量Goodhart's定律 来源:https://openai.com/index/measuring-goodharts-law/ 让我们更正式地研究best-of-n采样。假设我们有一个样本空间\(S\)(例如可能的问答对集合)、一个定义在\(S\)上的概率分布\(P\)、一个真实目标(或“奖励”)\(R_{\text{true}}: S \to \mathbb{R}\),以及一个代理目标\(R_{\text{proxy}}: S \to \mathbb{R}\)。假设我们以某种方式优化\(R_{\text{proxy}}\),从而得到一个新的分布\(P'\)。那么: * 期望\(\mathbb{E}_{x' \sim P'}\left[R_{\text{true}}(x')\right]\)衡量了我们对真实目标的优化程度。 * KL散度(在新窗口打开)\(D_{\text{KL}}(P' \parallel P)\)衡量了我们做了多少优化。例如,如果\(P'\)是通过从\(P\)中抽取第一个落在子集\(S' \subseteq S\)中的样本而得到的,那么这个KL散度就是来自\(P\)的样本落在\(S'\)中的负对数概率。 结果发现,在best-of-n采样的情况下,这两个量都可以使用来自\(P\)的样本进行高效估计。 我们先看期望。朴素的方法是使用蒙特卡洛估计器:多次运行best-of-n采样,测量这些样本上的真实目标,并对结果进行平均。然而,有一个更好的估计器。如果我们总共有\(N \geq n\)个来自\(P\)的样本,那么我们可以同时考虑这些样本中所有大小为\(n\)的子集,根据每个样本在代理目标下是最佳的子集数量进行加权,然后取加权平均的真实目标分数。该权重就是二项式系数\(\binom{k-1}{n-1}\),其中\(k\)是样本在代理目标下的排名,从1(最差)到\(N\)(最佳)。(A(在新窗口打开)) 这些权重的总和是\(\binom{N}{n}\),这给出了Hockey-stick恒等式(在新窗口打开)的一个证明。关于此处描述的估计器的正式推导,请参见WebGPT论文(在新窗口打开)的附录I。 除了更有效地使用样本外,这还允许我们为不同的\(n\)值重用样本。至于KL散度,令人惊讶的是,它有一个适用于任何连续概率分布\(P\)(即只要\(P\)没有点质量)的精确公式。有人可能天真地猜测答案是\(\log n\),因为best-of-n类似于取分布的前\(1/n\),这大致正确:确切答案是\(\log n - \frac{n-1}{n}\)。(B(在新窗口打开)) 这些估计器共同使我们能够轻松分析真实目标如何随应用于代理目标的优化量变化。 以下是来自WebGPT(https://openai.com/index/webgpt/)的一个真实例子:

相似文章

奖励模型过度优化的标度律

OpenAI Blog

OpenAI 研究人员通过实验研究了奖励模型过度优化对性能的影响,建立了标度律来说明代理奖励优化与真实性能之间的关系如何随优化方法变化,并与模型规模成可预测的关系。

Hölder策略优化

Hugging Face Daily Papers

HölderPO 引入了一种通用策略优化框架,利用 Hölder 均值进行 GRPO 中的词元级概率聚合,并采用动态退火策略来平衡梯度集中与方差。该方法在数学基准测试中取得了最先进的结果(平均 54.9%,相对 GRPO 提升 7.2%),并在 ALFWorld 上实现了 93.8% 的成功率。