best-of-n-sampling

标签

Cards List
#best-of-n-sampling

衡量古德哈特定律

OpenAI Blog · 2022-04-13 缓存

OpenAI 的研究通过最佳 N 采样(best-of-n sampling)对古德哈特定律进行了形式化分析,提供了高效的估计器,用于衡量代理目标与实际目标的匹配程度,并通过 KL 散度量化优化努力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈