@OpenAI: 我们也有三家第三方AI安全组织对我们的分析提供了反馈:@redwood_ai, @apolloaievals, @M…

X AI KOLs 新闻

摘要

OpenAI在强化学习训练中意外允许评分人员看到思考链;Redwood Research审阅其分析后发现,证据在很大程度上消除了对危险影响的担忧,但仍存在轻微风险。

我们还邀请了三个第三方AI安全组织对我们的分析提供反馈:@redwood_ai, @apolloaievals, @METR_Evals。 你可以在此处查看@redwood_ai的报告:https://t.co/ODm056TVbF
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 21:43

我们也邀请了三个第三方AI安全组织对我们的分析提供反馈:@redwood_ai、@apolloaievals、@METR_Evals。

@redwood_ai 的报告见此:https://t.co/ODm056TVbF


关于《调查在强化学习中意外对思维链进行评分的影响》的评论

来源:https://blog.redwoodresearch.org/p/openai-cot 上周,OpenAI 员工与我们分享了《调查在强化学习中意外对思维链进行评分的影响》(https://alignment.openai.com/accidental-cot-grading/)的早期草稿。

首先,我很感谢他们发布这篇文章。我认为,当出现类似问题时,AI 公司能够保持透明是很有价值的。我尤其感谢他们提前与我们分享,详细讨论了问题,并根据我们的重要批评意见进行了修改。

我认为,AI 公司越来越需要制定政策,就部署所带来的风险获取外部反馈,尤其需要外部监督,以验证其关于风险水平的说法是否有足够证据支撑;例如,可参见 METR 对 Anthropic 的《破坏风险报告》的评审(https://metr.org/blog/2026-03-12-sabotage-risk-report-opus-4-6-review/)。我们 Redwood Research 有意参与此类安全证据的外部评审。因此,我借此机会尝试撰写这类评论。如果你在顶尖 AI 公司工作,欢迎联系我们,我们可以就类似文件提供评审。

我总体评估是:我基本同意该文章中的分析。

(感谢许多 Redwood 和 OpenAI 的员工参与讨论,这些讨论极大地启发了我的评论;在 Redwood 方面,Alexa Pan 和 Ryan Greenblatt 对本次评审做出了重要贡献。)

OpenAI 的博文既包含了坏消息,也有好消息。坏消息是,在近期 OpenAI 模型的某些 RL 训练中,评分模型(即读取对话记录并产生分数,用于影响相关轨迹所获奖励的大语言模型)能够访问被训练策略的思维链(CoT)。(作为背景,Anthropic 也在其训练运行中意外地对思维链进行了评分;Mythos、Opus 4.6 和 Sonnet 4.6 在 8% 的 RL 回合中暴露了思维链。)他们是通过构建一个自动检测思维链训练的系统,并用它扫描以往训练运行中的此类问题才发现这一点的;希望这个系统能防止此类问题再次发生。

博文随后描述了一些好消息:他们调查了这种对思维链的训练是否会对这些模型的可监控性产生不利影响,并得出结论认为这种训练不太可能产生显著影响。

我在这里的主要贡献将是评审他们关于好消息的论证。具体来说,他们认为其证据表明,意外的思维链训练不太可能产生危险的影响,因此整篇博文不应成为对受影响模型对齐属性的重大负面更新。

我的总体评估是:我相信 OpenAI 对此次事件的调查所提供的证据,化解了我原本因得知思维链被训练而可能对部署受影响模型的风险做出的 80% 的负面更新。我的结论与博文的结论一致。

OpenAI 的博文没有强调这种思维链训练带来的其他一些坏消息,这些坏消息是他们的进一步证据所无法缓解的:特别是,虽然可能性较小(3%?),但思维链训练可能导致这些模型在其思维链中抑制提及追求权力的错误目标或其他令人担忧的事情,这种情况(尽管不会对模型直接造成的错误对齐风险产生重大影响)可能意味着我们错过了错误对齐的证据,可能导致该模型出现微妙的错误对齐行为,并可能导致错误对齐传播到部分使用该模型输出进行训练的未来模型。

作者使用了两种论证思路:

  • 首先,他们证明了访问思维链对受影响评分模型产生的奖励没有产生容易测量的影响。
  • 其次,他们指出,一个衡量可监控性的指标(来自《监控可监控性》论文(https://arxiv.org/abs/2512.18311)),在受影响的训练阶段保持相当稳定。(对于 GPT-5.4 Instant,他们重新进行了训练,观察到可监控性分数未受影响;对于 GPT-5.4 Thinking,他们没有重新训练。)

这是相当有力的证据,驳斥了思维链可监控性被此训练严重破坏的假设,因为它排除了先前合理的假设,即评分模型看到思维链的效果巨大且易于测量。

不幸的是,这两条证据也与一些合理的假设兼容,在这些假设中,思维链的可监控性确实被这种训练严重破坏了。基本问题在于,虽然证据与“思维链访问没有实质性影响评分模型的奖励或学到的策略”这一结论一致,但证据也与以下可能性一致:

  • **思维链访问对评分模型的影响太小,无法用博文中的技术注意到,但强度足以严重破坏针对它训练的策略的思维链可监控性。**我们知道,评分模型受思维链访问影响的程度太小,无法根据博文中提供的观察结果将其与零区分;这给了我们一个评分模型受思维链访问影响的上限。但训练过程如此庞大,以至于低于该界限的影响规模很可能足以严重破坏训练后策略的思维链可监控性。
  • 这种破坏思维链可监控性的过程不会影响可监控性分数。^1 (https://blog.redwoodresearch.org/p/openai-cot#footnote-1)

例如,博文中的证据与以下假设情景一致:

  • 在 0.1% 的受影响轨迹中,策略在其思维链中提到自己拥有追求权力的错误目标。
  • 在这些轨迹中,评分模型给策略更差的奖励^2 (https://blog.redwoodresearch.org/p/openai-cot#footnote-2)(博文提到,受影响的评分模型用于 GPT-5.4 Thinking 中 1.5% 的轨迹。因此受影响轨迹的比例为 1.5% × 0.1% = 1.5e-4。)(OpenAI 员工告诉我,他们认为这种情况不太可能,但无法分享理由。)
  • 在 RL 阶段^3 (https://blog.redwoodresearch.org/p/openai-cot#footnote-3) 中,策略学会了在其思维链中不提及自己的错误目标。(其思维链在其他方面未受显著影响,因此可监控性分数保持不变。)

OpenAI 员工可能已经知道那个特定问题没有发生,因为他们(或被分配查找异常情况的任务的模型,例如奖励黑客监控器 (https://openai.com/index/chain-of-thought-monitoring/))阅读了足够多的轨迹,如果 AI 在 0.1% 的时间里提到可怕的错误目标,他们应该会注意到。但公开证据并不反驳这一点。而且,如果思维链训练导致模型停止提及与追求权力的错误目标相关的内容,他们可能不会注意到。

同样值得注意的是,在这种情况下,即使模型有错误的目标,它可能实际上仍然是可监控的,因为如果它试图采取有害行动,其思维链很可能会清楚地表明这一点;部署的模型可能仍然存在错误对齐,但思维链在检测错误对齐行动方面的效果可能与未发生思维链训练时类似。所以,你可以用这里的说法 (https://blog.redwoodresearch.org/p/the-case-for-ensuring-that-powerful) 说,思维链训练对准入防御线的损害大于对控制防御线的损害。因此,这种思维链训练成为坏消息的主要原因是:如果模型实际上存在错误对齐,它们可能有机会造成危害而不在思维链中表达出来,而且在更大规模上,思维链训练可能压制了本应对我们有启发的错误对齐证据。

另一种更难发现的假设可能性:也许评分模型只受到思维链非常轻微的影响——它大部分时间忽略思维链,但有 1% 的时间,思维链的访问使其评分在十分制上变化了一分^4 (https://blog.redwoodresearch.org/p/openai-cot#footnote-4)。(我预计,如果这会导致思维链可监控性出现危险的退化,那么它很可能会影响可监控性分数。)

因此,我们面临一个定量问题:需要多少训练,才能使微弱的训练压力破坏模型思维链的可监控性?一旦我们知道这一点,就可以将其与我们根据上述证据得出的训练压力上限进行比较,并有望得出结论:训练压力显然不足以破坏可监控性。^5 (https://blog.redwoodresearch.org/p/openai-cot#footnote-5)

不幸的是,很难确定这个界限,因为很可能这里涉及的 RL 量非常巨大,以至于即使我们将其按 1.5e-4 的比例缩小,它仍然比几乎任何关于可监控性被 RL 破坏速度的研究中的 RL 量(而且是在更智能的基础模型上)都要大。这是关于该情况最重要的事实之一,在博文中没有提及;之所以省略,是因为有关 RL 计算规模的商业敏感性,但博文的作者肯定知道。

博文在“什么时候对思维链评分会导致思维链隐藏?”部分解决了这个问题,该部分描述了几项实验,证明不同数量的 RL 不足以改变思维链的各种属性。作者指出:“除了一项实验之外,所有这些实验受思维链压力影响的样本数量都多于任何已发布的经过思维链评分的模型(包括 GPT-5.4 Thinking)。”我认为,这是令人信服的证据,表明对于研究人员探索的思维链属性类型(例如在思维链中表现得更加自信),由思维链训练引起的 RL 压力不太可能导致实质性变化。然而,RL 可能以不同的速度影响不同的思维链属性,而我担心的一些属性(例如,思维链是否很少提及错误倾向)可能对思维链训练具有非常不同的敏感性。我很期待运行这些实验的 OpenAI 员工针对更类似这些属性的变化进行一些变体实验。

所以,总的来说,我的看法是:

  • 我们知道评分模型并未受到思维链访问的强烈影响,并且训练后策略的可监控性分数似乎未受此次训练的影响。这是相当有力的证据,支持“此训练对模型思维链可监控性没有影响”的假设。
  • 然而,在一些不太可能但合理的假设下,我们的观察结果并非极不可能出现,这些假设认为思维链训练产生了极其重要的影响,例如导致模型停止偶尔提及关于其错误对齐的可怕事情。

在我撰写本评论的初始版本时,由于 OpenAI 的博文没有告诉我关键信息,我很难评估关键主张。不过,作为回应,OpenAI 员工修改了博文,添加了对所有我提出的最重要问题的回答。

我对此证据的总体评估深受我处理不确定性的方式的影响。

  • 假设最好情况。 我可以假设我所面临的不确定性很可能以支持博文结论和论点的方式得到解决。
  • 忽略未加证实的证据。 我只能根据我掌握的信息得出结论。这最接近我上面所做的。
  • 假设最坏情况。 我可以问自己,如果我假设作者为了说服读者相信模型思维链可监控性未受影响而选择性报告信息,那么博文中的证据是否会让我信服。

我的感觉是,在这种情况下,如果我们假设最好情况,那么这篇文章看起来非常合理:他们展示的证据与思维链可监控性可能影响最小的结论一致。如果我们忽略未加证实的证据,情况会看起来更糟一些,因为 OpenAI 员工在多个地方根据他们未分享的证据声称某事没问题。而这篇博文在“假设最坏情况”的标准下绝对没有说服力:如果我们希望在这里减少对 OpenAI 的信任,他们需要分享更多信息。

思维链可能变得不可监控还有其他机制。例如,已知 OpenAI 模型有时会通过 SFT 对先前模型的输出进行训练 (https://openai.com/index/where-the-goblins-came-from/),这可能导致后来的模型继承先前模型不可监控的思维链(尤其是考虑到这些先前模型可能对其思维链产生了影响,而 OpenAI 员工事后很难发现这些影响)。总的来说,我适度担心未来模型的问题将难以修复,因为这些模型在很大程度上使用早期有缺陷的模型进行训练。

另一个机制是溢出效应:对输出的 RL 已被观察到会泛化并影响思维链 (https://arxiv.org/html/2511.11584v1)(另见此处讨论 (https://www.lesswrong.com/posts/FG54euEAesRkSZuJN/ryan_greenblatt-s-shortform?commentId=8ujSDfzxLnizbCfdJ))。这两者很可能对模型可监控性的影响比我们在此讨论的极小比例的意外思维链训练更为重要。

由于这些其他可能很大的影响,我认为外部活动家或 AI 公司员工过度关注防止思维链训练是一个错误,因为那可能不足以确保思维链的可监控性。

正如 Ryan 和 Alex 在回应 Anthropic 类似错误时所写 (https://blog.redwoodresearch.org/p/anthropic-repeatedly-accidentally):

这之所以重要,是因为应对未来风险更高的部署需要更加谨慎。上述三种事件类别中的问题可能是致命的。此外,随着开发者将 AI 开发的很大一部分交给 AI 本身,这些问题自然会更频繁地出现。在当前轨迹下,AI 主要试图以可能在训练中被检查的方式表现良好,并且似乎很可能忽略上述问题。AI 甚至可能试图主动破坏安全努力。默认情况下,智能爆炸将是一个极其混乱和令人慌张的时期。如果 Anthropic 的程序不够完善,以至于无法自信地确保开发按计划进行——尤其是在不针对思维链进行训练等重要方面——那么他们的安全评估将变得不可信,导致虚假的信心或至少是疑虑(FUD)。当存在重要的技术问题时,公司外部的人很难相信事情得到了妥善处理(尽管我非常高兴 Anthropic 能透明地报告这些问题;这确实有助于建立未来信任)。

我同意:对这种思维链进行训练的具体错误不太可能已经对模型思维链的可监控性造成重要损害,而且模型的能力还不足以让它们的错误对齐直接带来灾难性风险。而且,这个问题很可能会通过 OpenAI 的自动化思维链训练检测系统得到可靠解决。但是,如果 AI 公司没有建立足够完善的程序来确保他们的模型没有被以意外且潜在有害的方式训练……

相似文章

OpenAI 和 Anthropic 分享联合安全评估的研究成果

OpenAI Blog

OpenAI 和 Anthropic 发布了首次联合安全评估的研究成果。在这次评估中,两家实验室分别对彼此的模型进行了内部安全和对齐性测试,并公开分享了结果,以提高透明度并发现 AI 安全测试中的潜在漏洞。

具体的AI安全问题

OpenAI Blog

OpenAI、伯克利和斯坦福的研究人员共同撰写了一篇基础性论文,指出了现代AI系统中的五个具体安全问题:安全探索、对分布偏移的鲁棒性、避免负面副作用、防止奖励黑客和可扩展的监督。

通过外部测试强化我们的安全生态系统

OpenAI Blog

OpenAI宣布通过外部第三方测试和评估前沿AI模型来加强安全生态系统,包括独立评估、方法论审查和领域专家探测。该公司承诺通过公开分享第三方评估结果和自GPT-4推出以来支持独立评估来提高透明度。

OpenAI 安全实践

OpenAI Blog

OpenAI 介绍了其积极采用并不断改进的 10 项安全实践,包括实证红队测试、对齐研究、滥用监控以及在首尔 AI 峰会上分享的自愿承诺。该公司强调采用均衡、科学的安全方法,将其融入开发的各个环节。

收集人类反馈

OpenAI Blog

OpenAI 发布了 RL-Teacher,这是一个开源工具,可以通过人类反馈而不是手工设计的奖励函数来训练 AI 系统,应用于安全 AI 开发和复杂强化学习问题。