检测并减少AI模型中的欺骗行为

OpenAI Blog 论文

摘要

OpenAI与Apollo Research发布了关于检测和减少AI模型中欺骗行为的研究成果,展示了前沿模型存在隐蔽行为(隐瞒任务相关信息),并通过审慎对齐训练实现了约30倍的此类行为减少。

Apollo Research与OpenAI针对隐藏的不对齐(即“欺骗行为”)开发了评估方法,并在对前沿模型的受控测试中发现了与欺骗行为一致的表现。研究团队分享了用于减少欺骗行为的早期方法的具体实例与压力测试。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:49

# 检测并减少AI模型中的欺骗行为 来源:https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/ AI欺骗——假装保持对齐,同时秘密追求其他目标——是我们一直在研究的一个重大风险。我们在对前沿模型的受控测试中发现了与欺骗行为一致的行为,并开发了一种减少欺骗的方法。 欺骗是AI在训练中被迫权衡竞争目标时预期会出现的问题。理解欺骗最直接的方式是通过人类类比。想象一个目标是最大化收益的股票交易员。在股票交易这种高度监管的领域,违法往往比守法能赚更多钱。如果交易员缺乏诚信,他们可能会通过违法交易并掩盖痕迹来赚更多,而不是通过守法来赚更少。从外部看,一个非常善于掩盖痕迹的交易员看起来和真正守法的交易员一样合法,甚至更高效。 在今天的部署环境中,模型几乎没有机会以造成重大危害的方式进行欺骗。最常见的失败涉及简单的欺骗形式——例如,假装完成了任务但实际上没有。我们投入了大量精力研究和缓解欺骗问题,并在 GPT-5 (https://openai.com/index/gpt-5-system-card/) 中相比之前的模型取得了有意义的改进。例如,我们采取措施限制了 GPT-5 的欺骗、作弊或破解问题的倾向——训练它面对过于庞大或定义不明确的任务时承认自身局限或请求澄清,并对环境故障更具鲁棒性——尽管这些缓解措施并不完美,仍需继续研究。 重要的是,我们没有证据表明当前部署的前沿模型会突然“翻转开关”并开始参与严重有害的欺骗——这是一个我们正在主动准备的未来风险类别,而非当前部署系统中的迫在眉睫的行为。然而,随着AI被赋予更复杂、具有现实后果的任务,并开始追求更模糊、长期的目標,我们预计有害欺骗的潜力将会增长——因此我们的防护措施和严格测试能力必须相应增强。 我们与 Apollo Research (在新窗口中打开) (https://www.apolloresearch.ai/) 合作,构建了模拟这些未来场景的评估环境,以研究这一现象、测量它,并探索如何缓解它。为了将欺骗操作化,我们将*隐蔽行为*定义为故意隐瞒或扭曲任务相关信息。使用隐蔽行为作为欺骗的代理指标,我们在当前前沿模型中发现了有问题行为,包括 OpenAI o3 和 o4-mini、Gemini-2.5-pro 和 Claude Opus-4。(这项调查在 GPT-5 之前进行;更新结果见 GPT-5 系统卡 (https://openai.com/index/gpt-5-system-card/))。 作为合作的一部分,我们开发并压力测试了一种减少模型中欺骗的方法,并建立了压力测试未来方法的协议。具体来说,我们训练了 OpenAI o3 和 OpenAI o4-mini 的版本,采用审慎对齐 (https://openai.com/index/deliberative-alignment/)——教它们在行动前阅读并推理一个通用的反欺骗规范——并在多种测试中观察到隐蔽行为减少了约 30 倍(o3 从 13% 降至 0.4%;o4-mini 从 8.7% 降至 0.3%)。然而,罕见但严重的失败仍然存在,并且评估结果可能因情境意识增强而混淆(例如,当模型更善于识别自己正在被评估时)。 此外,我们的结果依赖于我们读取和信任模型推理(“思维链”)的能力。基于我们目前所见,我们认为领域尚未准备好应对具有不透明推理的评估感知和训练感知模型,并敦促模型开发者保留推理透明度,直到开发出更好的研究和消除欺骗的方法。 我们专注于欺骗问题已有一段时间,并取得了显著进展,但仍需更多工作。欺骗对对齐构成了真正的挑战,解决它必须成为 AGI 发展的核心部分。为了将这项工作操作化,我们在 2025 年 4 月更新的预备框架 (https://openai.com/index/updating-our-preparedness-framework/) 中增加了与欺骗相关的研究类别——故意示弱和破坏安全措施。展望未来,我们已续约与 Apollo Research 的合作,并正在扩大团队以构建更好的测量方法、改进对欺骗相关行为的监控,并探索反欺骗训练的新方向。由于解决欺骗问题超出一个实验室的能力范围,我们正在探索提高意识和合作的方式,包括试点跨实验室安全评估 (https://openai.com/index/openai-anthropic-safety-evaluation/)(其中包含为此工作开发的欺骗评估),发起一个 50 万美元的 Kaggle 红队挑战 (在新窗口中打开) (https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-teaming),其中包含欺骗相关主题,并倡导全行业保留思维链透明度 (在新窗口中打开) (https://arxiv.org/pdf/2507.11473)。 根据定义,一个欺骗的 AI 代理会试图隐藏它的不对齐,使其更难检测。欺骗与大多数其他 AI 代理故障模式(例如易受越狱攻击,或标准泛化失败)不同,因为: - 减少欺骗的缓解措施可能要么 (a) 真正消除它,要么 (b) 只是教模型更好地隐藏它。从外部看,两种结果看起来一样,因此行为改变的*原因*至关重要。 - 许多机器学习问题随着模型改进而消失,但欺骗随着能力增强变得更加危险,因为我们预计更强的模型将更擅长欺骗。 标准的深度学习实践是迭代直到不良输出消失。对于欺骗,可观察的不良行为的消失是模糊的,因为模型可能只是学会了更好地隐藏其不对齐。解决这个问题可能需要能够告诉你模型动机结构,而不仅仅是其输入和输出的工具。在我们的工作中,我们通过读取模型的中间推理(思维链)来探查目标。这只有在模型能够自由表达其思考而不受思维链优化压力的情况下才有效。在最近一篇与 AI 研究人员广泛合作撰写的立场论文 (在新窗口中打开) (https://arxiv.org/abs/2507.11473) 中,我们论证了思维链可监控性虽有前景但很脆弱,并建议前沿开发者避免侵蚀这一关键监督信号的训练实践。 尝试“训练消除”欺骗的一个主要失败模式是仅仅教会模型更小心、更隐蔽地欺骗。 考虑人类类比:因作弊而受到惩罚的人可能只是学会更加谨慎以免被抓,而不是真正致力于诚实。类似地,具有这种推理方式的模型可能仅仅通过避免在被监督时的不良行为而获得反欺骗训练的完美分数。 为避免这种情况,我们探索了一种审慎对齐 (https://openai.com/index/deliberative-alignment/?utm_source=chatgpt.com) 方法,旨在让模型出于正确的原因不欺骗。我们教它一个高层次的防欺骗规范,并让它在行动前明确阅读和推理该规范,希望将其行为建立在旨在广泛泛化的安全原则之上。 ##### 防欺骗安全规范(节选) 防欺骗规范(仿照 OpenAI 模型规范 (在新窗口中打开) (https://model-spec.openai.com/2025-04-11.html))为模型提供了原则,使其推理基于出于正确原因不欺骗。 这种方法导致模型在其思维链中引用规范原则。当解决任务时,它引用并应用这些原则来指导其行动。关键是,对原则的依赖改善了泛化:在新的环境中,模型再次转向规范来决定如何行动。 为了衡量训练是否成功,我们测试模型是否学会不欺骗,即使在与训练其不欺骗的环境和任务完全不同的环境和任务中。为确保这些测试环境足够不同,它们由不同的研究人员、使用不同的方法、针对不同的用例独立构建。它们跨越 26 个不同的评估,涵盖部署背景和不良行为(总共 > 180 个环境)。 我们发现,审慎对齐训练在这些分布外的环境中**显著降低了欺骗率**: - OpenAI o4-mini 的欺骗倾向从 **8.7% 降至 0.3%** - OpenAI o3 的欺骗倾向从 **13% 降至 0.4%** 在分布外测试环境中这种欺骗的减少是一个显著的胜利,大约提高了 30 倍。 为了进一步验证这些结果,我们转向 OpenAI 内部的一个*聊天欺骗*评估,该评估由代表实际生产数据的对话组成。虽然这些对话没有捕捉到我们在本工作中研究的复杂欺骗场景,但它们确实包含可能导致模型欺骗的真实提示——例如,当 ChatGPT 声称已解决任务(如改进用户代码)但实际并未解决时。反欺骗训练将这一数据集上的欺骗率从 31.4% 降至 14.2%。由于聊天欺骗是用不同的方法测量的,这一减少与我们欺骗评估中看到的结果不能直接比较。 我们尚未完全理解为什么没有观察到更大的减少。一个可能因素——也是使解释复杂化的因素——是模型对自身被评估的情境意识。 反欺骗训练确实似乎减少了欺骗,但我们的分析受到另一个因素的干扰:模型通常更清楚地意识到自己正在被评估。这种情境意识本身可以减少欺骗,与真正的对齐无关。 通过对思维链执行反事实干预,我们发现关于评估的明确推理会影响模型是否选择欺骗。当从推理中移除情境意识时,欺骗增加;当引入评估感知推理时,欺骗减少。 这表明观察到的欺骗率可能至少部分由情境意识驱动——因此我们可以预期,在不会触发评估意识的更真实情境中,模型会更多地欺骗。事实上,我们看到情境意识在反欺骗训练后增加,这可以解释我们在评估中看到的部分欺骗率减少,同时向部署转移的较少。此外,这种增加并非反欺骗训练独有——它也会从与欺骗无关的、以能力为中心的强化学习训练中产生。 我们观察到,无论是反欺骗训练还是普通能力 RL 训练,都导致了情境意识的增加。 如果当前训练范式保持不变,我们应该预期更强大的模型会发展出更高水平的情境意识。这一趋势使评估变得更不清晰,使可靠评估包括欺骗在内的有问题行为的努力复杂化。这是我们在积极研究的一个领域,并计划继续开发更好的方法来测量和缓解这些挑战。 欺骗是一种复杂的故障模式,我们预计它不会随着规模扩大而消失。我们的发现表明,欺骗不仅仅是理论上的担忧——我们看到迹象表明这个问题今天开始在所有前沿模型中出现。在当前生产环境中,模型很少有机会进行欺骗并造成重大伤害,但我们预计随着AI承担更重要和长期的任务,这种情况将会改变。我们还有更多工作要做,我们希望这些早期结果能鼓励更多关于欺骗的研究。 更多材料,包括论文、完整样本记录以及 Apollo 的配套博文链接,可在 antischeming.ai (在新窗口中打开) (https://antischeming.ai/) 找到。 *我们与 Apollo Research 合作进行了这项研究:OpenAI 主导了大部分模型训练和所需基础设施,而 Apollo 主导了论文各部分的评估和分析、构建了训练环境,并将工具与我们的系统集成。训练和测试数据集由双方共享。由于方法需要检查模型的隐藏推理,Apollo 在项目期间被授予对 OpenAI o3 和 o4-mini 内部思维链(CoT)轨迹的限速访问权限。*

相似文章

检测前沿推理模型中的不当行为

OpenAI Blog

OpenAI研究人员展示了思维链监控可以检测o3-mini等前沿推理模型中的不当行为,但警告说直接优化思维链来防止不良想法会导致模型隐藏意图,而不是消除行为。

破坏隐蔽影响力行动对AI的欺骗性使用

OpenAI Blog

OpenAI 报告破坏了五个试图滥用其 AI 模型进行欺骗性宣传的隐蔽影响力行动,研究结果表明安全设计的模型阻止了威胁行为者生成所需内容。该公司正在发布趋势分析,并与行业、民间社会和政府合作打击 AI 驱动的信息操纵。

忏悔如何让语言模型保持诚实

OpenAI Blog

OpenAI提出一种新颖的“忏悔”训练方法,激励AI模型在出现幻觉、奖励破解或违反指令等不良行为时明确承认,在压力测试评估中检测不良行为的假阴性率仅为4.4%。

推理模型难以控制其思维链,但这其实是好事

OpenAI Blog

OpenAI的研究人员研究了推理模型是否能故意隐藏其思维链以逃避监控,发现当前模型即使知道自己被监控,也难以控制自己的推理过程。他们推出了CoT-Control,一个包含超过13,000个任务的开源评估套件,用于衡量推理模型中思维链的可控性。