@_lamaahmad: 我们（@CedricWhitney, @SandhiniAgarwal, @EstherTetruas, @OliviaGWatkins2, @dgrobinson）撰写了关于我们观察到的细微差别……

X AI KOLs Following 2026/05/29 19:41 新闻

摘要

OpenAI研究人员分享了与第三方合作进行前沿模型评估的经验教训，强调了考虑评估框架以及奖励破解、数据污染和故意低报等潜在有效性问题的必要性。

我们（@CedricWhitney, @SandhiniAgarwal, @EstherTetruas, @OliviaGWatkins2, @dgrobinson）撰写了关于在与第三方合作进行前沿模型评估时观察到的细微差别，以及为什么评估标准需要考虑到这些差别。 https://t.co/oH95xM8DPm

查看原文

查看缓存全文

缓存时间: 2026/05/31 10:45

我们（@CedricWhitney、@SandhiniAgarwal、@EstherTetruas、@OliviaGWatkins2、@dgrobinson）撰写了关于在与第三方合作进行前沿模型评估时观察到的细微差别，以及为什么评估标准需要考虑到这些差别的文章。

https://t.co/oH95xM8DPm

值得信赖的第三方评估共享策略

来源：https://openai.com/index/trustworthy-third-party-evaluations-foundations/ 独立、可信的第三方评估在加强安全生态系统中发挥着关键作用 (https://openai.com/index/strengthening-safety-with-external-testing/)。这些评估对前沿模型进行，为有关关键能力和安全缓解措施的声明提供额外证据。在这篇文章中，我们分享迄今为止学到的经验教训，并推荐设计评估的方法，以有效评估前沿模型，希望有助于为该领域的新兴标准提供信息。

早期，许多评估将模型视为聊天机器人：评估就像用户提问一样提示模型，模型回答，然后评估者判断输出。如今的前沿模型能做更多：它们可以使用工具，跨多个步骤跟踪信息，并在更大的工作流程中行动。这意味着性能不仅取决于模型，还取决于任务发生的环境，以及促进其行动的设置。这个周围的设置，我们称之为“脚手架”，可以改变系统性能的关键方面，包括它如何使用工具、跟踪信息或从错误中恢复。

这改变了评估需要如何进行，以及读者应该在评估报告中寻找什么。在我们看来，最有用的报告在结果本身之外明确描述了两件事：首先，它们指定了评估设置旨在测试什么声明；其次，它们分享了证明评估结果有效的可用证据。

评估中测试的声明通常属于以下三类之一¹ (https://openai.com/index/trustworthy-third-party-evaluations-foundations/#citation-bottom-1)：

能力激发：模型是否可能表现出被评估的能力？
防护措施性能：已测试的防护措施对评估的行为或攻击的稳健性如何？
比较：不同模型在同等条件下的表现如何？

评估报告还需要解释评估者如何检查可能影响结果有效性的因素。这些包括：

奖励黑客：利用任务或评分者的捷径，使系统获得分数而没有展示评估旨在测量的行为。
拒答：以掩盖被测试行为的方式拒绝作答。
污染：由于评估任务、答案或相近变体出现在训练数据中，或在评估期间可通过浏览等方式发现，导致表现过高。
错误问题：由于任务无效而导致表现过低。原因可能包括不公平的评分（例如，正确答案需要未说明的实现细节）和无法解决的环境（例如，缺少关键文件或工具不可靠）。
故意低效：在意识到被评估时故意表现不佳。

为评估选择合适的脚手架对于获得最佳结果至关重要

我们观察到，对于在较长轨迹上行动的系统，脚手架的作用尤为重要。当模型能够使用工具、维护状态并在多个步骤中从错误中恢复时，脚手架可以改变观察到的性能水平，甚至决定被评估的能力是否出现在评估中。例如，一个保留状态并重试失败动作的脚手架可能让模型完成一个在更简单脚手架中从未完成的多步骤任务。

在下表中，我们区分了评估者可能想要做出的三种声明，以及我们认为每种声明所需的脚手架。

能力声明只与其背后的激发能力相当：评估者需要选择最适合任务和评估试图测量的能力的脚手架。 标准化脚手架可能适用于在相同条件下比较系统，但当它省略了帮助模型执行任务的特定脚手架功能时，可能会低估能力。例如，GPT-5.5 在 OpenAI 的网络安全测试场上的表现显示了脚手架选择如何显著改变需要长时间、多步骤工具使用任务的可测量能力：当脚手架使用压缩 (https://openai.com/index/equip-responses-api-computer-environment) 来在交互变长时保留与任务相关的上下文时，模型表现更好。这表明，对于某些模型，省略压缩的脚手架会低估性能。

更高的成功率更好

其他已发表的评估² (https://openai.com/index/trustworthy-third-party-evaluations-foundations/#citation-bottom-2) 也显示了脚手架和预算选择会改变评估结果。增加测试时计算量可以显著改变评估激发的能力， 特别是在成功容易验证的领域，例如许多网络安全任务。在英国 AISI 的网络安全测试场评估 (opens in a new window) (https://arxiv.org/pdf/2603.11214) 中，将预算从 1000 万 tokens 增加到 1 亿 tokens，性能提高了高达 59%，并且在测试的最高预算下性能仍在增加。详细说明这一点使评估更易于理解：它向读者展示了结果如何依赖于测试的激发设置。当性能随着预算增加而仍在改进时，得分应描述为在该脚手架和预算下的性能，而不是测量到的能力上限。能力通常依赖于资源，而不是一个可以一次性干净测量的固定数量。在多次尝试中可以衡量成功的情况下，报告还应该考虑每次成功求解的预期成本，而不仅仅是固定 token 预算下的成功率。这可以使严重性更易于理解：如果重复尝试的成本在相关威胁模型范围内，那么低成功率可能仍然具有实际意义。对于能力声明，可避免的低估是测量失败：如果脚手架或预算阻止系统表现出它本可以产生的行为，那么得分并没有衡量所声称的能力。在评估者尽可能推动激发而性能仍在改进的情况下，报告应明确说明，并明确指出结果只是一个下限估计。

防护措施测试如果没有考虑到攻击者可用的资源（包括自定义脚手架），可能会低估攻击是否成功以及其严重程度。 在英国 AISI 的 GPT-5.5 网络安全评估 (opens in a new window) (https://www.aisi.gov.uk/blog/our-evaluation-of-openais-gpt-5-5-cyber-capabilities) 中，他们的专家红队发现了一种通用越狱方法，在 OpenAI 提供的恶意查询中（包括在多轮代理设置中）引发了违反政策的网络安全内容。他们使用 Codex 创建了一个自定义脚手架来增强模型的攻击性能：它将在交互中嵌入一个可重用的防护绕行模式，跨轮次和区块保留该模式，并将其应用于 OpenAI 提供的恶意网络安全查询。防护措施测试应与对手匹配。如果声明是关于对专家滥用的稳健性，那么测试应评估在既定预算下最强有力的可信端到端攻击策略，包括任何需要保留和重用该策略的脚手架。否则，结果存在校准错误的风险：它们可能只支持关于抵抗简单提示的较窄声明，可能忽略攻击一旦激发方法实施后的严重程度和成功概率，并且如果给予过多预算，也可能高估问题的可能性或严重性。

标准化的脚手架比较有其时间和地点，但评估者应该明确说明为什么使用一致的一套脚手架是合适的，以及它能支持什么声明。 METR 的时间跨度评估 (opens in a new window) (https://metr.org/time-horizons/) 是一个更广泛、适当固定的评估设置的例子：它旨在对其评估的系统产生可比较的结果。METR 定义了一个共同的结果，即人工智能代理在给定可靠性水平下被预测成功的人类任务的典型持续时间。它应用共享的任务套件、评分方法、拟合方法以及一小套可重复使用的支架，例如 Triframe 和 ReAct (opens in a new window) (https://metr.org/notes/2026-02-13-measuring-time-horizon-using-claude-code-and-codex/)，在每个一起报告的估计批次中。当 METR 扩展任务套件并将评估基础设施从名为 Vivaria 的框架迁移到名为 Inspect 的框架时，它报告了这一变化（时间跨度 1.1 更新 (opens in a new window) (https://metr.org/blog/2026-1-29-time-horizon-1-1/)）并在新的评估设置下重新评估了模型。这就是标准化评估设置（包括一致的脚手架集）的价值：它可以让读者确信分数差异确实反映了正在比较的系统之间的差异，而不是测量设置的变化。

我们建议第三方评估报告说明其评估设置旨在支持哪种声明；描述测试的内容在多大程度上反映了该更广泛的声明；描述塑造结果的脚手架选择；详细说明这些选择在不同评估之间何时发生变化；并包括支持证据以显示结果是如何产生的以及它推广到该声明的程度。

通过检查已知的可能扭曲结果的危害来评估有效性

随着模型变得更加强大，评估分数更容易被误解。相对于实际能力，如果模型识别出自己正在被评估并策略性地表现不佳，评估分数可能会被人为降低。如果模型利用任务、提示、评分者或脚手架中的捷径，分数可能会被夸大。污染（模型已经知道或无需解决任务即可找到答案）或“损坏”的问题（模棱两可、评分错误、无法解决或容易受到意外捷径影响）也可能扭曲分数。因此，评估报告应将总体分数与对这些危害的讨论配对，以便读者能够评估分数是否反映了预期行为。

脚手架、预算、工具、评分规则、监控和审查程序都会影响代理是正在解决预期任务、回避任务、记忆任务，还是寻找绕过它的路径。一份值得信赖的报告会使这些检查可见：评估者应在每次运行评估时审查这些行为的样本。

奖励黑客

奖励黑客意味着以不反映预期能力的方式获得高评估分数。这里关注的是系统通过利用任务、评分者、提示或脚手架获得分数，而不是做评估旨在测量的工作。METR 对 GPT 5.4 的评估 (opens in a new window) (https://t.co/FRWeH7QMnl) 说明了为什么这很重要：尽管模型完成任务的成功率在初步通过时本应记为大约 13 小时的时间跨度，但人工审查显示其中一些成功来自奖励黑客，而修正结果仅考虑那些没有奖励黑客的实例后，估计值降至约 6 小时。评估者应评估此类调整的必要性，并在需要时明确报告：当读者能够看到哪些明显成功被取消资格、为什么被取消资格以及结果在多大程度上依赖于该判断时，能力估计会更有用。

图表显示 AI 模型性能随时间变化的趋势线和置信区间。

拒答

模型也可能由于防护措施而低估其能力。模型可能因为拒绝完成评估任务而表现出比其实际能力更低的评估性能。因此，报告应解释拒答是否是评估结果的一部分，如果是，那么有多少样本因此受到影响。

污染

污染对于公共或重复使用的基准 (https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/) 最为重要。如果任务、答案或相近变体出现在训练数据中，或者可以由具有浏览能力的代理找到，那么性能可能反映记忆或检索，而不是模型性能。评估者应尽可能优先使用私有或新构建的任务，并在解决之前测试模型是否再现任务特定的细节。

错误问题

错误问题包括意外无法解决的问题等情况。错误问题相当常见 (opens in a new window) (https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/)，以至于它们应被视为标准的有效性风险。它们包括不正确的真值、模棱两可的提示、缺失的文件、不稳定的服务、不公平的评分标准以及暴露捷径的环境，例如隐藏的答案文件或包含真值补丁的代码库历史记录。

故意低效

模型或系统的故意低效意味着在强性能会与某些目标冲突时策略性地表现不佳。Apollo 的 GPT-5.5 评估 (opens in a new window) (https://deploymentsafety.openai.com/gpt-5-5/external-evaluations-for-sandbagging—apollo-research) 通过创建一个模型理解高评估分数可能触发遗忘或阻止部署的上下文来测试这一点。GPT-5.5 仍然回答正确，这表明很少有行为证据表明策略性表现不佳³ (https://openai.com/index/trustworthy-third-party-evaluations-foundations/#citation-bottom-3)。但他们对其推理轨迹的审查增加了重要的背景：Apollo 在 52% 的故意低效条件样本中发现了中等或更高程度的对齐评估意识迹象，而在反事实样本中为 0%。这一证据使对结果的解释复杂化，但最终为读者提供了更多信号：读者可以看到令人放心的行为结果，以及对其过度解读要保持谨慎的理由。

我们如何支持更有力的评估

强有力的声明既需要正确的脚手架来激发行为，也需要有效性检查来证明结果是可靠的。我们认为脚手架和有效性检查是评估结果一部分的观点，塑造了我们实际支持第三方评估的方式：

我们正在与评估者分享具体的最大激发指南。
我们要求能力评估者为 OpenAI 模型使用 Codex 作为共同基准：测试应至少通过用户可能依赖的相同代理接口运行基线，而不是仅通过精简的模型接口。
我们还在需要评估欺骗、故意低效或评估意识时提供推理轨迹和其他中间产物。METR 和 Apollo 自 GPT-5 以来就在 OpenAI 评估中使用了这种访问权限。
最后，我们正在优先研究以更深入地理解脚手架选择何时以及如何显著改变结果，从上下文管理和工具访问到重试行为、评分和资源预算。

这对评估标准和未来研究方向意味着什么

这些建议不仅旨在改进个别评估报告，也旨在为新兴的国家 (o

@_lamaahmad: 我们（@CedricWhitney, @SandhiniAgarwal, @EstherTetruas, @OliviaGWatkins2, @dgrobinson）撰写了关于我们观察到的细微差别……

值得信赖的第三方评估共享策略

为评估选择合适的脚手架对于获得最佳结果至关重要

通过检查已知的可能扭曲结果的危害来评估有效性

我们如何支持更有力的评估

这对评估标准和未来研究方向意味着什么

相似文章

值得信赖的第三方评估共享手册

@OpenAI: 我们来聊聊评估。我们一直在寻找更好的方法来衡量和预测模型的进展，尤其是在基准测试...

关于语言模型安全性和滥用的经验教训

@OpenAI: 我们也有三家第三方AI安全组织对我们的分析提供了反馈：@redwood_ai, @apolloaievals, @M…

@vivek_2332：发现了一篇深入探讨 @AnthropicAI 如何在 RL 训练中识别和缓解奖励黑客攻击的优秀博客。推荐…

提交意见反馈