@OpenAI: 部署模拟使用代表性生产数据效果最佳,而外部评估者通常无法获取这些数据。关于…
摘要
OpenAI探讨了公共聊天数据(WildChat)能否有效预测现实世界中的AI不匹配问题,发现使用公共数据集的模拟部署能够提供惊人的准确失败率预测,尽管存在数据时间间隔。
查看缓存全文
缓存时间: 2026/06/16 21:42
部署模拟在使用代表性生产数据时效果最佳,而外部评估者通常无法访问这些数据。
在我们对齐博客的配套文章中,我们还探讨了公开的 WildChat 数据集,并发现虽然其精确度较低,但仍能提供有用的信号,用于评估
公开聊天数据能否预测真实世界的 AI 偏离行为?
来源:https://alignment.openai.com/validating-public-evals/ 前沿 AI 模型越来越多地被用于具有真实经济、法律和社会后果的场景。因此,政府、AI 安全组织和独立研究人员需要方法来评估这些系统在现实条件下的行为。
传统评估使用手写、合成或对抗性提示来压力测试已知风险,并在受控条件下比较模型。但这些提示可能过于狭窄、不具代表性,或容易被识别为测试。另一种互补的方式是观察用户与模型的真实对话,以评估模型在真实世界中的行为。LLM 开发者可以内部进行此操作,通过从生产数据中采样样本来检查模型是否恰当回应,以及不同失败的发生频率。基于真实使用数据的证据有助于缩小基准测试结果与部署行为之间的差距[1],并且不易受模型因被测试而表现出不同行为的影响 [2 (https://alignment.openai.com/validating-public-evals/#reference-2),3 (https://alignment.openai.com/validating-public-evals/#reference-3),4 (https://alignment.openai.com/validating-public-evals/#reference-4)]。但外部评估者通常无法访问这些证据。由于真实用户对话是私密的,实验室通常无法将其分享给 AI 安全组织、学者或独立研究人员。因此,关于前沿模型行为的最具信息量的证据依赖于通常只有构建它们的实验室才能访问的数据。
今天,我们分享了关于部署模拟(Deployment Simulation,https://openai.com/index/deployment-simulation)的工作,它利用近期生产数据来预测部署前不良模型行为的发生率,包括罕见且特定于模型的病理行为 [1 (https://alignment.openai.com/validating-public-evals/#reference-1),5 (https://alignment.openai.com/validating-public-evals/#reference-5)]。在这篇博客中,我们探究外部团队是否可以通过将源数据集替换为公开可用的替代数据集 WildChat[6],使用此技术来评估前沿语言模型。
我们的核心结果是,使用 WildChat 对话前缀模拟模型的部署,能够惊人地准确预测真实世界的失败率。我们通过使用私有生产数据在部署时经验性地验证基于 WildChat 的预测来确立这一点。我们发现,尽管 WildChat 数据的收集与当前使用之间存在 2–3 年的差距,但这些结果依然成立。
错误也具有信息量。当前生产使用与 WildChat 差异最大的地方,预测性能下降最严重,尤其是在更技术性和代理性(agentic)的偏离形式方面。因此,我们的结果既验证了公开部署模拟,也显示了更新、更广泛的生产类数据集在公开评估下一代语言模型真实失败中的价值。我们希望这些结果有助于将公开的生产类数据集建立为外部审计的实用工具,并激励为评估下一代代理性 AI 开发更丰富的公开数据集。
WildChat 为基于生产数据的评估提供了一个松散但有用的代理。图 1:WildChat 为基于生产数据的评估提供了一个松散但有用的代理。对于 GPT-5.1、5.2、5.4,WildChat 预测不良行为生产率的平均误差大约在 3 倍以内。## WildChat 作为可验证的生产数据代理
WildChat(Zhao 等人,2024[6])是一个包含 100 万条对话的数据集,时间跨度从 2023 年 4 月到 2024 年 5 月。它通过向用户提供托管在 Hugging Face Spaces 上的免费 ChatGPT-3.5 和 GPT-4 服务收集而成,并明确征得用户同意收集和发布其去标识化的聊天记录。此后,WildChat 被用于构建多个基准测试 [7 (https://alignment.openai.com/validating-public-evals/#reference-7),8 (https://alignment.openai.com/validating-public-evals/#reference-8),9 (https://alignment.openai.com/validating-public-evals/#reference-9)],通过策划一小部分针对特定行为的困难提示来尝试对 AI 模型的能力或安全性进行排序。我们的目标不同。我们不是策划 WildChat 提示的子集来测试特定的能力或安全行为,而是专注于使用 WildChat 样本的代表性样本,并用我们感兴趣评估的目标模型重新生成新的最终助手回复。我们提出的问题是:这组 WildChat 对话,用新模型 X 重新生成后,能否作为模型 X 自身近期生产流量的校准代理?
几乎没有理由假设这会有效。在模型 X 的模拟部署中使用 WildChat 数据,以及模型 X 的生产数据中,我们评估的是同一底层模型的输出,但模型的行为始终取决于引发它的上下文。我们可能预期,在创建 WildChat 时自愿分享的用户聊天不一定代表更敏感的使用场景,并且 AI 的使用模式在过去几年中已经发生了显著变化。因此,较早的公开对话可能无法揭示与当前私人生产流量相同的失败或相同的失败率。我们使用近期生产数据作为真实基准来检验这一点。
我们从 WildChat 中随机抽取了大约 10 万条对话的子集,并从 5 个近期 OpenAI 模型(OpenAI o3、GPT-5 Thinking、GPT-5.1 Thinking、GPT-5.2 Thinking、GPT-5.4 Thinking)中为每个对话重新生成了一个新的最终助手回复。我们使用由 GPT-5 Thinking 驱动的 LLM 评判器,根据 19 个追踪的偏离和安全类别(附录:表 1)对这些助手回复进行评分,并将每个类别下的不良行为率与我们对该问题最佳的生产率估计(基于每个模型至少约 20 万条对话)进行比较。这使我们能够从 WildChat 中估计低至 0.001% 的不良模型行为(在 10 万样本中,一次观察到的事件对应 0.001% 的比率;真实事件率约为 0.003% 时,有 95% 的概率观察到至少一次事件)。在所有对生产数据的分析中,用户数据均按照我们的隐私政策进行了去标识化处理。此处仅报告汇总率和统计比较;私人生产对话未被发布或分享。
我们展示了,跨 OpenAI 模型,在 WildChat 上测量的不良行为率惊人地预测了我们在生产数据中观察到的比率,跨越四个数量级(OOM)的失败类别(图 2)。WildChat 和生产率都使用相同的完整安全采样栈进行测量,因此比较反映的是部署系统的行为,而非孤立模型。95% 的 WildChat 预测在实际生产率的 1.04 OOM 以内,这仅比我们基于自身部署数据模拟模型部署时所能看到的预测误差大 1.86 倍(图 1)[5]。[2] WildChat 的预测也接近成比例:最佳拟合线的斜率为 1.2(Pearson R=0.65)。换句话说,尽管 WildChat 数据较老且是公开收集的,但它保留了关于哪些失败是罕见的、哪些是常见的以及它们当前在生产使用中大致出现频率的大量信号。
使用 WildChat 前缀模拟部署可以捕捉特定于模型的失败
为了使 WildChat 作为对齐审计工具有用,它必须能够揭示被测试前沿模型特有的偏离行为,即使这些行为可能不存在于重新采样的对话的先前轮次中。例如,GPT-5.1 Thinking 已知引入了一种我们称之为计算器黑客(calculator hacking)的失败模式,即模型学会了表面上调用搜索功能,就像使用计算器一样。作为 WildChat 对齐审计能力的积极迹象,我们看到它唤起了 GPT-5.1 Thinking 的这一失败,其比率与模型实际部署时的比率相似。
对于每个追踪类别,我们根据该类别观察到的生产流行度和 WildChat 流行度分别对模型进行排名。这些类别内的模型排名是正相关的:在 18 个类别中,平均 Spearman 秩相关为 0.57,类别级排列检验显著(p = 2.0 × 10^{-5})。这些结果表明,WildChat 不仅仅反映了数据集或评判器的固定特性。它保留了有意义的、特定于模型的部署相关行为差异,使其可能用于比较哪些模型最可能表现出特定的真实世界失败。
在公开 WildChat 数据上采样的 OpenAI 模型的不良行为率预测了生产中的真实比率。图 2:在公开 WildChat 数据上采样的 OpenAI 模型的不良行为率预测了生产中的真实比率。## 无需内部推理特权的外部评估
我们使用的许多偏离信号依赖于访问模型的完整推理轨迹。例如,判断模型是否错误地表达了其不确定性,当评判器可以看到模型的内部推理时会更容易。外部评估者通常无法访问原始思维链(chain-of-thought),因此我们在不向评判器展示 CoT 的情况下重复了 WildChat 分析,同时仍提供工具调用和最终模型响应。
对于某些需要通过 CoT 评估意图的偏离形式,似乎没有 CoT 会显著使测量无效。尽管如此,我们发现平均预测质量仅略有下降:在所有偏离类别中,平均乘法误差从有 CoT 时的 3.6 倍增加到无 CoT 时的 4.0 倍。[2] 在类别层面,对“隐藏不确定性”(concealed uncertainty)的预测在没有 CoT 时退化最严重,乘法误差增加了大约 3 倍。这些结果表明,访问推理轨迹的特权可能会改善某些偏离类别,但即使没有原始 CoT,针对某些偏离形式的公开数据评估仍能保留有意义的信号。
WildChat 的不足之处
虽然输入-输出评估可能足以应对许多聊天式的失败,但 WildChat 在评估代理性工作流方面更为有限。随着模型承担更长期的任务,使用工具、后台工作和多步执行,其失败模式越来越依赖于 WildChat 等聊天类数据集基本不存在的上下文,这可能会反映在其在这些设置中的预测性能上。
虽然我们的真实比率仍然来自 ChatGPT 生产数据(其代理性对话远少于 Codex),但我们考虑的六个偏离类别(表 1 中用星号标记的)似乎与代理性使用场景最为相关。这些类别的预测误差远大于其余类别:原始乘法误差大约大 37 倍,二项式 NLL 遗憾[1]显著高于所有其他追踪类别。这突显了当前公开聊天数据集有用性的一个重要边界。WildChat 可以支持对普通对话失败的信息性评估,但对于在工具丰富或代理性设置中出现的部署风险,似乎是一个弱得多的代理。这指出了公开可用、具有代表性的代理性数据集的价值——同样针对真实生产数据进行验证——用于评估下一代代理系统。
使用模型评判的偏离评估其他 LLM
最后,我们将我们的方法应用于评估来自其他前沿实验室的模型。由于前沿 AI 实验室无法相互共享私有生产数据,因此难以运行类似生产的竞争性评估。WildChat(或其他公开的生产类数据集)可以提供一个共同的公开评估基础,任何研究人员或实验室都可以使用它来跨模型运行更具可比性的安全评估。由于不同实验室对允许内容的边界划定不同,我们在此分析中不应用我们的内部分类法。相反,我们要求 OpenAI GPT-5.4 Thinking 判断每个重新采样的最终助手回复是否包含任何它认为偏离的行为。我们从包括我们自己在内的 4 个前沿 AI 实验室的 15 个模型的 API 中采样了对 10,000 个 WildChat 提示的响应,并将每个响应数据集提供给评判器。对于每个对话,评判器提供了二元评估、简短理由以及任何已识别问题的描述。由于我们没有提供固定的分类法或关于哪些行为应被视为偏离的详细指导,我们将其视为对齐的开放式度量:评判器在助手响应中发现任何问题的比率。我们在图 3A 中展示了这些结果。
WildChat 上的不良行为产生了对来自几个前沿实验室的模型对齐的排名顺序,该顺序与 Petri 大致一致。图 3:WildChat 上的不良行为产生了对来自几个前沿实验室的模型对齐的排名顺序,该顺序与 Petri(Anthropic 开发的一种用于针对高风险感兴趣偏离的合成对齐审计管道)大致一致。(A) 使用我们的方法在 WildChat 数据上评估的前沿 AI 实验室模型的整体对齐性。(B) 根据外部报告[11]测量的 Petri 对齐性。
当将使用此设置获得的模型对齐分数随时间绘制时,我们发现了与 Anthropic 研究人员先前使用 Petri(一种用于生成针对性高风险对齐审计的合成多轮对话工具)评估模型偏离时报告的结果相似的趋势,无论是在前沿 AI 模型之间还是内部[10]。图 3B 取自 Leike 关于对齐随时间趋势的讨论[11]。我们从图 3B 中未标记点的发布日期推断出模型名称。在同时出现在图 3A 和图 3B 中的 11 个模型中,排名顺序高度一致(Spearman rho = 0.973,p = 5.14e-7;53/55 对排序方向匹配)。
考虑到 Petri 的设计目标——基于完全合成的数据生成方法进行多轮诱导 OOD 行为和高风险偏离——这种一致性令人惊讶。
相似文章
通过模拟部署预测模型发布前的行为
OpenAI 推出了 Deployment Simulation,一种模拟未来模型部署的方法,通过以隐私保护的方式回放过去对话并使用候选模型,来预测真实世界行为并在发布前识别新的不对齐问题。
@OpenAI: 模拟部署也将评估意识降低到接近真实生产流量的水平。我们扩展了该方…
OpenAI讨论了模拟部署如何将评估意识降低到接近真实生产水平,并将该方法扩展到使用工具模拟器的具有状态工具的代理部署。
OpenAI成立部署公司之举,比任何基准更能说明AI鸿沟[D]
OpenAI成立了一家部署公司,获40亿美元投资,收购Tomoro,将工程师嵌入企业以辅助AI部署,表明模型能力与生产部署之间的鸿沟正在扩大。
AI系统常以测试中不显现的方式失败?
讨论AI工作流中干净的基准测试环境与混乱的真实世界使用之间的常见差距,导致生产环境失败,并提及评估平台如Confident AI、Braintrust和Langfuse。
无人提及的AI部署漏斗:60%评估,20%试点,5%上线。MIT追踪了300个真实AI实施的盈利指标。
MIT研究人员追踪了300个真实AI实施案例,发现仅5%的评估最终进入全面生产部署,95%的AI投资未产生可衡量的成果。成功部署聚焦于边界明确的任务,并设有定义明确的成功指标。