衡量古德哈特定律

OpenAI Blog 2022/04/13 07:00 论文

goodharts-law optimization reward-modeling best-of-n-sampling kl-divergence research

摘要

OpenAI 的研究通过最佳 N 采样（best-of-n sampling）对古德哈特定律进行了形式化分析，提供了高效的估计器，用于衡量代理目标与实际目标的匹配程度，并通过 KL 散度量化优化努力。

古德哈特定律有句名言：“当一个指标成为目标时，它就不再是一个好指标。”虽然这最初来自经济学，但 OpenAI 在思考如何优化难以衡量或成本高昂的目标时，也需要应对这个问题。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:46

# 衡量Goodhart's定律来源：https://openai.com/index/measuring-goodharts-law/ 让我们更正式地研究best-of-n采样。假设我们有一个样本空间\(S\)（例如可能的问答对集合）、一个定义在\(S\)上的概率分布\(P\)、一个真实目标（或“奖励”）\(R_{\text{true}}: S \to \mathbb{R}\)，以及一个代理目标\(R_{\text{proxy}}: S \to \mathbb{R}\)。假设我们以某种方式优化\(R_{\text{proxy}}\)，从而得到一个新的分布\(P'\)。那么： * 期望\(\mathbb{E}_{x' \sim P'}\left[R_{\text{true}}(x')\right]\)衡量了我们对真实目标的优化程度。 * KL散度（在新窗口打开）\(D_{\text{KL}}(P' \parallel P)\)衡量了我们做了多少优化。例如，如果\(P'\)是通过从\(P\)中抽取第一个落在子集\(S' \subseteq S\)中的样本而得到的，那么这个KL散度就是来自\(P\)的样本落在\(S'\)中的负对数概率。结果发现，在best-of-n采样的情况下，这两个量都可以使用来自\(P\)的样本进行高效估计。我们先看期望。朴素的方法是使用蒙特卡洛估计器：多次运行best-of-n采样，测量这些样本上的真实目标，并对结果进行平均。然而，有一个更好的估计器。如果我们总共有\(N \geq n\)个来自\(P\)的样本，那么我们可以同时考虑这些样本中所有大小为\(n\)的子集，根据每个样本在代理目标下是最佳的子集数量进行加权，然后取加权平均的真实目标分数。该权重就是二项式系数\(\binom{k-1}{n-1}\)，其中\(k\)是样本在代理目标下的排名，从1（最差）到\(N\)（最佳）。(A（在新窗口打开）) 这些权重的总和是\(\binom{N}{n}\)，这给出了Hockey-stick恒等式（在新窗口打开）的一个证明。关于此处描述的估计器的正式推导，请参见WebGPT论文（在新窗口打开）的附录I。除了更有效地使用样本外，这还允许我们为不同的\(n\)值重用样本。至于KL散度，令人惊讶的是，它有一个适用于任何连续概率分布\(P\)（即只要\(P\)没有点质量）的精确公式。有人可能天真地猜测答案是\(\log n\)，因为best-of-n类似于取分布的前\(1/n\)，这大致正确：确切答案是\(\log n - \frac{n-1}{n}\)。(B（在新窗口打开）) 这些估计器共同使我们能够轻松分析真实目标如何随应用于代理目标的优化量变化。以下是来自WebGPT（https://openai.com/index/webgpt/）的一个真实例子：

衡量古德哈特定律

相似文章

奖励模型过度优化的标度律

BiasGRPO：通过群体相对策略优化稳定高方差奖励环境中的偏见缓解

Hölder策略优化

大模型时代的奖励黑客：机制、涌现错位与挑战

TEMPO：通过模式分离策略优化实现时间强制，用于可信的大语言模型回测

提交意见反馈