评估思维链的可监控性
摘要
OpenAI研究人员引入了一个框架和一套包含13项评估的系统,用于衡量大型语言模型中思维链的可监控性。研究发现,监控推理过程比仅监控输出有效得多,这为AI安全及规模化监督提供了重要启示。
OpenAI推出了一套新的框架和评估套件,用于思维链可监控性,涵盖24个环境下的13项评估。我们的发现表明,监控模型的内部推理远比仅监控输出更有效,这为随着AI系统能力增强而实现可扩展控制提供了一条有前景的路径。
查看缓存全文
缓存时间: 2026/04/20 14:52
# 评估思维链的可监控性
来源:https://openai.com/index/evaluating-chain-of-thought-monitorability/
当AI系统做出难以直接监督的决策时,理解这些决策是如何做出的变得至关重要。一种有前景的方法是监控模型的内部推理过程,而不仅仅是其行动或最终输出。
现代推理模型(例如 GPT‐5 Thinking)在给出答案之前会生成显式的思维链。监控这些*思维链*中的不当行为,比单独监控模型的行为和输出要有效得多 (https://openai.com/index/chain-of-thought-monitoring/)。然而,OpenAI 及整个行业的研究人员担心(opens in a new window) (https://arxiv.org/abs/2507.11473),这种思维链的“可监控性”可能会因训练流程、数据源的变化,甚至现有算法的持续扩展而变得脆弱。
我们希望思维链的可监控性在模型规模扩大并部署到更高风险场景时依然能够保持。我们呼吁整个行业的研究人员共同努力,尽可能长久地保持思维链的可监控性,并确定它能否作为未来AI系统的负荷承载控制层。**为了保持可监控性,我们必须能够对其进行测量**,然而相关的评估很少 [1(opens in a new window) (https://www.anthropic.com/research/shade-arena-sabotage-monitoring), 2(opens in a new window) (https://metr.org/blog/2025-08-08-cot-may-be-highly-informative-despite-unfaithfulness/), 3(opens in a new window) (https://arxiv.org/abs/2505.05410)],且方法论各异。
在这项工作中,我们系统地研究了思维链的可监控性。我们引入了一个评估思维链可监控性的框架,以及一套包含13项评估(共24个环境)的测试套件,旨在具体衡量系统的可监控性。这些评估分为三种原型:干预型、过程型和结果属性型。利用它们,我们研究了当今大语言模型的可监控性如何,以及可监控性如何随着推理时的更多思考、更大的强化学习运行和增加的预训练规模而变化。
*现在我们有了一个大型评估套件,可以开始追踪我们模型的可监控性。(左上)我们发现,随着模型“思考”更多、思维链更长,可监控性得到改善。(右上)在没有思维链的情况下,通常只能尝试监控模型的行为和最终输出。然而,我们发现仅监控行为和输出的效果远不如监控思维链。(下中)我们将我们的模型与提供完整思维链的外部模型——Claude 3.7 Sonnet、DeepSeek R1-0528-Qwen3-8B 和 Kimi K2 Thinking——进行了比较。*
我们发现大多数前沿推理模型的可监控性相当不错,尽管并非完美。在我们研究的几乎所有场景中,监控思维链比仅监控行为和最终输出要有效得多。思考时间更长的模型往往更易于监控,并且当前前沿规模的强化学习优化似乎并未显著降低可监控性。
值得注意的是,我们观察到推理努力与模型大小之间存在权衡:当模型以低推理努力运行时,一个以更高推理努力运行的较小模型可以达到相当的能力,同时更易于监控。这以增加推理计算为代价,我们称之为*可监控性税*。最后,我们发现提出后续问题并监控由此产生的思维链可以进一步提高可监控性。
我们将可监控性定义为监控者预测智能体行为相关属性的能力。在很多情况下,这些属性对应于不当行为的形式——例如欺骗、奖励黑客或偏见推理——但也可能包括良性属性,例如智能体是否依赖了特定提示或遵循了特定的推理思路。
可监控性是一个双向属性。它既取决于监控者,也取决于被监控的智能体。
- **监控者**。我们可以通过多种方式使监控者更智能,并且我们希望我们的评估能够给予那些能更好地预测智能体行为的监控者更高的分数。
- **智能体**。可以提供给监控者的关于智能体的观察有很多,包括智能体的行为、输出、神经激活,以及近年来随着推理模型的出现,还有思维链。有些智能体的想法可能比其他智能体更难理解,因此我们希望我们的可监控性评估能够比较不同的智能体,而不仅仅是比较监控者。
我们的评估旨在评估双方:某些智能体是否更容易或更难以监控,以及更强大的监控者是否能从相同的信号中提取更多信息。
在当前一代推理模型出现之前,思维链通常是通过提示模型“逐步思考”来引出的。
推理模型的思维链在两个重要方面有所不同。首先,它们经过明确训练,生成思维链然后给出答案。当提示聊天模型“逐步”思考时,模型必须遵守对模型施加的任何规范,例如要乐于助人、无害等。相反,强化学习训练过程教会推理模型,思维链是一个私有空间,它可以在其中自由思考而不会受到惩罚,就像人类可以私下思考而不会因“思想犯罪”而受到惩罚一样。
其次,训练过程有效地搜索那些对智能体获得高奖励最终答案*最具工具性效用*的思维链。因此,思维链不仅是模型可以自由表达的空间,它包含了帮助模型达到最终答案的思考内容。
我们将可监控性评估组织为三种不同的原型,每种原型利用不同的机制来衡量可监控性。
1. **干预型评估**,受 Chen 等人 2025(opens in a new window) (https://arxiv.org/abs/2505.05410)、Chua 等人 2025(opens in a new window) (https://arxiv.org/abs/2501.08156)、Turpin 等人 2023(opens in a new window) (https://arxiv.org/abs/2305.04388) 的启发,我们在智能体的环境中引入一个受控变化,然后测试监控者是否能够通过识别思维链中干预的证据来检测行为变化的原因。与标准的控制评估(例如 Shade-Arena(opens in a new window) (https://www.anthropic.com/research/shade-arena-sabotage-monitoring))不同,干预型评估使我们能够探究监控者是否可以检测到行为变化*的原因*,而不仅仅是检测是否发生了某种行为。
2. **过程型评估**专注于那些有效解决方案路径数量有限的任务(例如,数学问题只能用某些定理解决)。人类专家列举这些路径,然后我们测试监控者是否能检测到模型实际执行了哪些步骤。这些评估使我们能够将模型做了什么与模型必须采取的特定步骤联系起来,并询问这些步骤是否可监控。
3. **结果属性型评估**适用于模型输出的某个属性可以可靠测量的情况。在这些情况下,我们测试监控者是否能够从模型的推理或行为中预测该属性(例如奖励黑客)。例如,在编程任务中,我们可能有办法可靠地评估模型是否正在采取行动来黑客奖励信号,然后我们可以询问监控者是否在模型的思考或行为中发现了意图进行奖励黑客的证据。
下面提供了我们评估的分类。请参阅我们的论文以获取每个单独评估的完整描述。
*中性评估询问模型在不行为不当的正常任务中的推理是否可监控。谄媚评估针对模型改变行为以过度取悦或同意用户的情况。偏见评估询问模型关于性别、种族等方面的偏见是否可监控。最后,我们将失调标签作为其他形式不当行为的统称:欺骗、撒谎等。*1
*我们发现我们模型的可监控性在每个类别中都有一定程度的差异。总体而言,我们发现它们非常可监控;然而,在 Scruples 这个专门测试关于谄媚的推理是否可监控的任务中,我们观察到非常低的可监控性。*
将思维链视为私有工作空间——并训练模型使用它来有效解决问题——原则上应该使思维链可监控。与此同时,有几种原因使得强化学习有可能损害思维链的可监控性。
首先,对推理长度的约束,例如限制模型思考的时间或令牌数量,会促使模型减少推理。其次,即使不对思维链本身施加直接的优化压力,间接的压力也可能降低可监控性。例如(opens in a new window) (https://arxiv.org/abs/2511.11584),如果模型避免那些可能导致低奖励或不良结果的推理路径,它们可能会更容易达到高奖励答案。最后,可监控性降低可能源于强化学习梯度噪声引起的虚假漂移。
下面,我们研究在 OpenAI 的两个前沿强化学习训练运行中可监控性如何变化。虽然这些结果只代表两个数据点,但它们表明当前前沿规模的强化学习优化并未实质性地降低思维链的可监控性,并且在早期步骤中提高了可监控性。然而,这并不排除未来显著更大的强化学习规模可能会对可监控性产生负面影响的可能性。
*我们发现,在当前RL计算规模下,可监控性变化不大,但在初始步骤中有所增加。虽然这在当前体制下可能是真的,但规模显著增加可能会导致可监控性开始下降。*
当前AI系统智能的很大一部分是由增加的预训练规模驱动的,模型参数和数据集大小自 GPT 范式开始以来一直在持续增长。参数数量的增加导致每个生成的令牌使用更多的推理计算,这在推理模型的情况下,给了模型更多在激活中而不是在思维链中进行认知的机会。因此,我们可能预期在固定能力水平下,较大的模型可监控性较低。
与此同时,较小的模型也可能更不善于有效利用思维链——这也可能影响可监控性。
为了研究预训练规模、能力和可监控性之间的关系,我们在两个数量级的预训练计算量上训练了一系列模型,增加了深度和宽度,然后对每个模型在一个共享的数学、科学和编程任务数据集上应用强化学习。我们在一个广泛的推理努力范围内评估每个模型,并在匹配的能力水平上比较可监控性。
*我们绘制了每个模型在评估套件上的可监控性与一组标准能力评估(GPQA-Diamond、AIME 2025 和 CodeForces)的平均通过率的关系。每个模型在多个推理努力下进行评估(注意此图中的每个点实际上是测量到的推理努力之间的线性插值结果)。圆圈表示该模型在该特定推理努力下在该能力水平上主导了可监控性,透明的 X 表示该模型在该特定推理努力下的可监控性被另一模型在该能力水平上主导。黑色箭头展示了两种使用更多推理计算的方式:用较小的模型采样更多令牌,或用同一模型使用相对较少的额外令牌。红色箭头展示了必须支付的可监控性税,即为了大幅提高可监控性而略微降低能力。*
总的来说,我们发现,如果我们打算以低推理努力部署某个给定模型,我们反而可以部署一个以更高推理努力运行的较小模型。与将额外计算用于原始大模型的更多推理努力相比,我们可以以较小的能力代价(即*可监控性税*)获得更高的可监控性;然而,完成一次推理所需的挂钟时间也可能是一些部署决策中的因素,我们在此不予以考虑。随着我们的模型改进并部署到更高风险场景,为了安全部署它们,可能需要支付这样的税。
这些结果有以下局限性:(1) 我们每个模型只训练一次,因此没有考虑训练运行之间的方差。例如,“中等”模型在可监控性上似乎与该系列中的其他模型相比偏离趋势较大,这可能是由此原因造成的。(2) 我们在相对分布内的场景(数学、科学和编程)中评估能力,当考虑分布外鲁棒性时,权衡可能会改变。
随着AI系统扩展到超越人类水平的表现,直接的人类监督变得越来越困难。理想情况下,我们应该拥有可扩展的控制程序,允许可信但较弱的监控者监督更强的、可能不受信任的智能体。这样的程序还应该能够吸收额外的测试时计算,并产生更准确的预测。
*(左)我们比较了许多不同的监控者,并改变了每个监控者的推理努力。每个监控者都在监控同一个 GPT-5 Thinking 模型。正如预期,我们发现通常更大、更强大的模型作为监控者表现更好,并且推理模型在更高的推理努力下(因此有更多的测试时计算)在监控任务上表现更佳。*
*(右)我们比较了 OpenAI o4-mini 的不同监控观察范围,即监控者是否只能看到思维链、只能看到行为和答案,或者看到被监控模型的所有消息。值得注意的是,我们发现当给予监控者思维链访问权限时,随着测试时监控计算(更高的监控推理努力)的增加,可监控性的改善速度更快。因此,思维链监控可能为控制提供比朴素监控更可扩展的路径。*
思维链的可监控性通常被视为一个固定量:一旦模型在给定的推理努力下产生响应,人们就会尽最大努力监控生成的思维链。由于我们一致发现可监控性随着智能体推理努力的增加而改善,我们受到启发,想知道是否可以通过某种方式获得更多令牌来监控。
为了探索这一点,我们在模型响应后尝试询问*后续问题*,同时将原始提示、思维链和答案保留在上下文中。这些后续问题聚焦于正在监控的属性——例如,“你是否有意义地使用了提示来选择你的答案?”或“你是否做了可疑的事情?”原则上,由于模型可以访问其先前的推理,它可能能够在后续的思维链或响应中暴露出之前未言明的想法。
这些结果是初步的。我们只探索了少量后续问题格式,并认为方法论仍有很大的改进空间。此外,这种方
相似文章
推理模型难以控制其思维链,但这其实是好事
OpenAI的研究人员研究了推理模型是否能故意隐藏其思维链以逃避监控,发现当前模型即使知道自己被监控,也难以控制自己的推理过程。他们推出了CoT-Control,一个包含超过13,000个任务的开源评估套件,用于衡量推理模型中思维链的可控性。
检测前沿推理模型中的不当行为
OpenAI研究人员展示了思维链监控可以检测o3-mini等前沿推理模型中的不当行为,但警告说直接优化思维链来防止不良想法会导致模型隐藏意图,而不是消除行为。
脆弱的思考:大型语言模型如何处理思维链扰动
本论文对大型语言模型在思维链推理步骤中处理损坏情况的能力进行了全面的实证评估,在数学推理任务上针对13个模型和5种扰动类型(数学错误、单位转换、盲从、跳过步骤、额外步骤)进行了测试。研究结果揭示了异质性的漏洞模式,对在多阶段推理管道中部署LLM具有重要意义。
通过过程监督改进数学推理
OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理,同时降低对齐成本。这种方法在不牺牲模型性能的前提下,产生更易解释、更符合人类价值观的推理过程。
当答案未出,安全先溃:评测推理链中的有害行为检测
研究者发布 HarmThoughts 基准,含 1,018 条推理轨迹、56,931 句细粒度标注,用于逐步评估有害行为如何在推理过程中浮现,并揭示现有检测器对微妙不安全推理转折的盲区。