通过模拟部署预测模型发布前的行为
摘要
OpenAI 推出了 Deployment Simulation,一种模拟未来模型部署的方法,通过以隐私保护的方式回放过去对话并使用候选模型,来预测真实世界行为并在发布前识别新的不对齐问题。
OpenAI 推出了 Deployment Simulation,一种在部署前使用真实对话数据预测 AI 模型行为的方法,以提高安全性和评估准确性。
查看缓存全文
缓存时间: 2026/06/16 20:35
# 通过模拟部署在发布前预测模型行为
来源:https://openai.com/index/deployment-simulation/
## 引言
在发布新模型之前,研究机构不仅需要了解模型能做什么,更需要知道它在实际使用中可能表现出的行为,包括可能引入的新风险。随着模型能力的提升,这一点变得愈发重要。作为我们部署前安全审查的一部分,我们利用针对性评估、红队测试和其他检查手段来理解模型行为。现在,我们开始使用一种在模型实际部署前模拟其部署的方法,这提供了一个补充信号:在模型到达用户之前,对候选模型行为的类似部署的预览。
部署模拟(Deployment Simulation)是一种在正式部署前模拟未来部署的方法。我们通过用新的候选模型以隐私保护的方式重放之前的对话来实现。这使我们能够在发布前研究新模型在现实场景中的响应方式,包括是否出现新的不良行为以及这些行为可能出现的频率。
在多次GPT-5系列Thinking模型的部署中,部署模拟改进了我们对不良模型行为率的估计,帮助在发布前发现了新型的错位行为,并降低了模型察觉到自身在被测试的风险。我们还将该方法应用于具有挑战性的智能体部署,表明它可以扩展到涉及工具使用的更复杂的智能体场景,并且可用于内部模型部署前的风险评估。
在模型开发过程中,我们已经利用部署模拟的见解来识别传统评估中的盲点,并为缓解措施和部署决策提供依据。随着我们使该流程更易于运行,预计它将在未来的模型开发过程中发挥更大的作用。
## 部署模拟的工作原理
行业内常用的部署前评估通常包括合成提示、人工编写的提示或生产环境中的提示,这些提示被有意选择为困难、高风险或对抗性的。这些评估通常有两个相互交织的目标:评估模型在部署流量中极小概率出现的压力测试情境下的响应,以及获得对不良模型行为的总体理解,包括发现新的不良行为并预测其在部署时的发生频率。
虽然传统评估对于第一个目标仍然至关重要,但部署模拟在第二个目标(针对非极端风险)方面代表了一大进步(在我们的实验中,该方法无法可靠测量出现频率低于每20万条消息1次的行为)。部署模拟的优势在于规避了传统评估的一些核心挑战:
- **覆盖范围**:很难确信评估提示能覆盖所有可能的不良模型行为。测量新型不良行为需要创建新的评估,并知道要测量哪些危害。这可能费时费力,而且评估会随时间饱和。
- **选择偏差**:传统评估通常针对特定的不良模型行为构建,选择方式偏向于以往出现过的场景。这使得它们的估计对于此类行为在整个部署分布中的发生率来说,信息量可能不足。
- **被模型识别为测试**:模型越来越有能力判断自己是否在被测试,这可能会扭曲它们的行为以及我们对安全性的下游测量。虽然我们在OpenAI使用的许多传统评估也来自生产流量,不存在这个问题,但这是行业中使用许多传统评估时的常见担忧。
部署模拟背后的主要技术很简单:我们获取最近的部署对话,移除旧模型中原始助手的回复,然后用待发布的新候选模型重新生成回复。我们通过搜索新的故障模式来评估这些补全,并根据在类似部署的分布中的频率来估计部署时的不良行为频率。我们可以在发布后对真实部署流量进行相同的测量,从而验证我们部署前的预测。
部署模拟显著缓解了上述三个限制:采样偏差通过使用代表近期使用情况的评估提示分布来解决。使用代表性提示的部署模拟也能缓解覆盖范围的问题:通过模拟更多流量,我们可以获得更大的不良模型行为覆盖。这种计算量与覆盖范围之间的权衡很重要,因为它使风险评估这一维度的质量随计算量扩展,而不是需要手动构建更多评估。模型似乎也无法区分通过部署模拟获得的对话和真实部署流量。
*图1:部署模拟流程概览*
*传统评估与部署模拟的高级别比较*
## 我们如何测试部署模拟
为了评估部署模拟,我们预先注册了对GPT-5.4 Thinking部署时20类不良行为出现频率的预测。我们还对GPT-5系列中其他Thinking模型的部署进行了回顾性研究。我们分析的模型行为涵盖了我们在系统卡中报告的错位和不允许内容类别(例如模型对工具撒谎,或输出不允许的色情内容)。虽然在这些结果中我们只追踪了20类不良模型行为,并且只寻找新型错位行为,但部署模拟是一种通用技术,可应用于模拟任何部署时的模型属性。
我们利用的生产流量也来自GPT-5系列的Thinking模型。在运行评估之前,我们自动移除了与账户相关的标识符和可识别信息。根据我们的隐私政策,我们仅分析允许将其数据用于模型改进的ChatGPT用户的数据。我们仅报告这些评估的总体结果。总共,我们分析了从GPT-5 Thinking到GPT-5.4部署期间约130万条去标识化的对话,时间跨度为2025年8月至2026年3月。
我们主要通过三种方式评估部署模拟产生的部署前风险评估的质量:
- **分类覆盖**:发布后的审计是否发现了我们最初不良行为分类中缺失的重要错位行为?
- **方向准确性**:模拟是否正确预测了已知行为在部署中的流行程度会上升还是下降?
- **率校准**:我们的部署前估计是否接近后来在部署中观察到的实际发生率?实现好的率校准比方向准确性要求更高,因此这是最高的质量标准。
我们还测量了在部署模拟期间模型能意识到自己在接受评估的程度,并测试了该方法对不同形式的部署流量和具有挑战性的工具使用场景的鲁棒性。
## 部署模拟显著扩展了部署前风险评估
在GPT-5系列Thinking模型的多次部署中,部署模拟在确定实际风险率方面优于基于挑战提示的基线方法,能够在上线前发现计算器劫持,并且对模型来说似乎与真实部署无法区分。
**预测概览**。图2展示了GPT-5系列Thinking模型部署的所有预测的可视化。GPT-5.4 Thinking的预测是预先注册的,其他是回顾性预测。总体而言,我们的预测的中位数乘法误差为1.5倍(例如,如果不良行为率为每10万次10次,则估计为每10万次15次或6.67次)。虽然我们方法的尾部误差可能大约大10倍,但我们预计通过进一步改进模拟流程可以显著减小这些误差,如下所述。
*图2. 基于先前部署数据的部署模拟频率预测(部署时不良行为)。符号5.1 → 5表示我们用GPT-5.1重新采样来自GPT-5的前缀,即基于GPT-5的数据模拟GPT-5.1的部署。最高错位行为率是GPT-5.1中的“计算器劫持”,我们已在[之前](https://alignment.openai.com/prod-evals/)讨论过。*
**将部署模拟预测与基线进行比较**。对于部署前风险评估,最重要的类别是那些在模型部署后发生率发生较大变化的类别(例如,>= 1.5倍)。在这个子集上,部署模拟在预测某种不良行为随着模型部署是否会增加或减少流行程度方面(图3左),以及在估计其准确部署时发生率方面(图3右),都显著优于基线方法。我们使用两个主要基线:一个是我们目前用于系统卡和发布决策的“挑战提示”(Challenging Prompts)基线,以及一个将先前部署的发生率作为新模型估计值的朴素基线。
*图3. 部署模拟在预测发生率变化方向(左)和精确生产发生率(右)方面均优于静态评估。*
**流程中的模拟误差来源**。我们还研究了当前流程中的误差来源。具体来说,大的尾部误差使流程在部署决策中不太可靠:例如,当看到某类不良行为有大幅预测增长时,如果已知流程偶尔会有大的误差,就会让人怀疑这是可靠的估计还是流程的伪影。可能的误差来源主要有两个:
- **重采样环境保真度误差**:为了准确估计生产发生率,我们的模拟流程需要尽可能真实。这在一定程度上是一个工程问题(使用与生产流量相同的流程从模型采样),也涉及到需要读写外部资源(这些资源不断变化,如网络搜索或与本地文件交互)的工具的挑战。通过比较真实部署与其模拟的预测(即模拟已部署模型的部署),我们可以分离出模拟保真度误差。
- **提示分布漂移误差**:部署模拟的一个主要担忧是,任何模型的部署都会导致输入分布的漂移,特别是如果用户适应了新模型的能力。通过比较使用近期提示模拟部署与使用实际部署中提示得出的估计,我们可以分离出提示分布误差。
如图4所示,我们发现流程中的很大一部分误差——尤其是尾部误差——目前来自模拟保真度。这是个好消息,因为我们预计模拟保真度通常比减少提示分布漂移更容易改进。我们还发现,使用先前部署的最新数据可能有助于减少提示分布漂移误差。更多细节可在研究论文中找到。
*图4:重采样环境保真度似乎是估计中最大的误差来源,尤其对于最极端的误差。*
**自动审计发现了这些部署中引入的唯一一种新型错位**。在我们研究的部署窗口期内,基于模拟部署的自动审计流程原本可以在发布前发现“计算器劫持”,这是我们在分析的ChatGPT流量中识别出的唯一新型错位。计算器劫持是一种奖励黑客形式,涉及模型使用浏览器工具作为计算器,同时将动作呈现为搜索。这并不意味着大规模审计能抓住每一个新故障,但它说明了为什么现实场景很重要:它们可以引发更窄的评估集可能永远不会直接暴露的行为,即使这些行为在用于播种模拟的原始流量中并不存在。
## 降低评估意识
使用类似部署的上下文的另一个优势是,它们可以减少模型识别出自己在被测试时可能产生的扭曲。在先前的研究中,[我们](https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/)以及[其他人](https://arxiv.org/abs/2505.23836)发现,模型通常能意识到自己在被测试。例如,模型可能会在其思维链中推理自己在被测试什么、评估者可能喜欢什么,以及——如果它们行为不当——是否会因此被抓。这给对齐评估带来了问题:如果模型仅仅因为认为自己被测试才表现良好,我们如何建立信心,相信它在意识到自己已部署后会安全行事?
我们表明,与不基于真实部署数据的传统评估相比,部署模拟显著降低了模型表现出的评估意识水平。我们通过三种方式测量评估意识:要求模型分类某条轨迹是来自生产环境还是评估,监控思维链中明确提及正在被测试对齐的陈述,以及识别[元游戏](https://alignment.openai.com/metagaming)(任何关于监督的推理)。模拟部署流量在所有三项测量上都与真实部署流量非常接近。例如,GPT-5.2将真实生产流量标记为类似评估的时间占5.4%,将模拟流量标记为类似评估的时间占5.1%,而传统评估数据集(如SWE-Bench或MonorepoBench,主要由合成示例构成)几乎100%被归类为评估。
*图5. 评估意识比较:真实生产流量和模拟流量在评估检测、言语化对齐评估意识和元游戏方面显示出相似的比率,而传统评估数据集报告的比率则高得多。*
为了测试该方法是否能扩展到标准聊天模式之外,我们还研究了在具有挑战性的智能体编码设置中模拟部署。具体来说,我们使用来自GPT-5.4的12万条内部员工智能体轨迹来模拟基于GPT-5.5的编码智能体的内部部署。这有两个目的:表明部署模拟也可用于内部部署的风险评估,并证明通过精确的工具模拟,即使在智能体设置中也能实现高模拟保真度。
上面我们讨论了模拟保真度是我们当前流程中的主要误差来源之一。使部署模拟变得现实的一个挑战是,需要工具以真实的方式运行,即使它们需要读写不断变化的外部资源(例如网络搜索或与本地文件交互)。
这对于智能体部署等设置尤其具有挑战性:单个智能体轨迹可能依赖于数百次工具调用、仓库状态、网络响应或瞬时故障。这使得重采样w
(注:原文在"resampling w"处截断,可能为文章结尾部分不完整。翻译时保持原样。)
相似文章
@OpenAI: 部署模拟使用代表性生产数据效果最佳,而外部评估者通常无法获取这些数据。关于…
OpenAI探讨了公共聊天数据(WildChat)能否有效预测现实世界中的AI不匹配问题,发现使用公共数据集的模拟部署能够提供惊人的准确失败率预测,尽管存在数据时间间隔。
@OpenAI: 模拟部署也将评估意识降低到接近真实生产流量的水平。我们扩展了该方…
OpenAI讨论了模拟部署如何将评估意识降低到接近真实生产水平,并将该方法扩展到使用工具模拟器的具有状态工具的代理部署。
面向企业AI智能体的部署前保障:基于本体论的仿真与信任认证
研究人员提出了一种基于本体论的企业AI智能体部署前验证框架,结合了智能体操作包络、自动化场景生成以及可机器验证的信任证书与分级部署判定。在四个受监管行业开展的试点研究共生成1,800个测试场景,结果显示基于本体论的生成方法在监管覆盖率上显著优于基于角色的基线方法。
大语言模型部署最佳实践
Cohere、OpenAI 和 AI21 Labs 联合发布了大语言模型开发和部署的初步最佳实践,涵盖使用指南、安全措施、偏差缓解、文档、多元化团队和伦理劳动标准。
OpenAI成立部署公司之举,比任何基准更能说明AI鸿沟[D]
OpenAI成立了一家部署公司,获40亿美元投资,收购Tomoro,将工程师嵌入企业以辅助AI部署,表明模型能力与生产部署之间的鸿沟正在扩大。