标签
本文形式化了密封审计上的有符号压缩进展作为具有古德哈特抗性的奖励的概念,证明了累积奖励可坍缩为真实的审计改进,并为有限审计面板提供了界限。它识别了失败模式并用实验验证了结果。
OpenAI 研究人员通过实验研究了奖励模型过度优化对性能的影响,建立了标度律来说明代理奖励优化与真实性能之间的关系如何随优化方法变化,并与模型规模成可预测的关系。
OpenAI 的研究通过最佳 N 采样(best-of-n sampling)对古德哈特定律进行了形式化分析,提供了高效的估计器,用于衡量代理目标与实际目标的匹配程度,并通过 KL 散度量化优化努力。