面向AI控制的集成监控：多样信号胜于更多算力

arXiv cs.AI 2026/05/18 04:00 论文

ai-safety ensemble-monitoring ai-control monitoring diversity fine-tuning agent-safety

摘要

本文提出用于AI控制的集成监控方法，结合多样化的监控器以改进对行为偏差的检测。实验表明，多样化的集成优于同质化集成，且微调后的监控器具备独特的检测能力。

arXiv:2605.15377v1 公告类型：新论文摘要：随着AI系统在大规模自主智能体场景中的部署日益增多，确保其行为安全且符合用户意图变得至关重要。监控智能体行为是一项关键的安全机制，然而可靠的监控器仍难以构建，且系统规模使得人工监督不切实际。我们证明，将来自不同监控器的信号组合成集成，可提高对行为偏差的检测能力。我们通过提示（prompting）和微调策略构建了12个GPT-4.1-Mini监控器，并在编码任务上对其进行评估，其中候选解决方案通过了标准测试但在对抗性输入上失效。在此设置下，多样化集成在性能上优于单个监控器和同质化集成。我们最佳的3监控器集成相比由三个相同监控器组成的集成，检测性能提升了2.4倍，且该集成在独立数据集上表现强劲。我们认为这些结果表明，多样性——而非规模——驱动了性能提升。最佳集成结合了强劲的个体性能与监控器之间的低相关性。此外，微调后的监控器出现在每个表现最好的集成中，并在分布外攻击类型上保持这一优势，这表明微调能够激发仅靠提示无法获得的检测能力。这些结果支持将集成监控作为一种实用的AI控制策略，在合理的推理成本下实现安全增益。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:32

# 多元化信号优于更多算力

## 面向AI控制的集成监控：多元化信号优于更多算力

###### 摘要

随着AI系统在规模化自主代理场景中的部署日益广泛，确保其所采取的行为安全且符合用户意图至关重要。监控代理行为是一种关键的安全机制，然而，可靠的监控器依然难以构建，且系统规模使得人工监督不切实际。我们证明，将来自不同监控器的信号整合成集成系统，能够提高对错位行为的检测能力。我们利用提示工程和微调策略构建了12个GPT-4.1-Mini监控器。我们在编程任务上对其进行评估，在这些任务中，候选解决方案通过了标准测试，但在对抗性输入上失败。在此设定下，多样化的集成系统优于单个监控器和同质化集成系统。我们最佳的3监控器集成系统，其检测性能增益是三个相同监控器集成系统的2.4倍，且该集成系统在独立数据集上表现同样出色。我们认为，这些结果表明，驱动性能提升的是多样性，而非规模。最佳的集成系统结合了强大的个体性能和监控器之间的低相关性。此外，微调监控器出现在每一个表现最佳的集成系统中，并在分布外攻击类型上保持这一优势，这表明微调能够激发提示工程单独无法引发的检测能力。这些结果支持将集成监控作为一种实用的AI控制策略，以合理的推理成本实现安全增益。

AI安全，AI控制，集成监控，机器学习

![图1](figure1.png)

**图1：** 集成监控：每个监控器独立评分，并与在验证集上校准的阈值比较均值。我们表现最佳的3监控器集成系统结合了一个微调监控器（ ）和两个提示工程监控器（ ）。三个监控器都识别出相同的“差一错误”循环边界，但得出相反的结论：微调监控器将其标记为有意后门，而两个提示监控器则将其视为简单的编码错误。集成系统捕捉到了后门。在各自的个体阈值下，十二个监控器中有九个未检测到该样本，包括所示三个集成成员中的两个。*红色代码注释仅为清晰起见而添加；所有注释在监控评估前已去除。**集成阈值已校准，以在验证集上实现5%的假阳性率。*

## 1 引言

随着基于LLM的编程代理以更高的自主性和更强的能力被部署，存在着错位和有意破坏的风险，这对于AI实验室的内部部署尤为突出。AI控制（Greenblatt等人，2023）通过设计即使面对不信任模型蓄意破坏也能保持鲁棒性的协议来解决这一问题。此类协议将能力足够强的模型视为可能错位，并采用包括可信监控（使用较弱的可信模型对输出进行评分）、对标记行为进行重采样（Bhatt等人，2025）以及升级到人工审查等机制。AI控制中的一个核心问题是如何构建有效的监控器，特别是哪种方法能产生最强的信号。此外，如果在集成系统中使用多个监控器，必须知道多少监控器足够，以及多样性还是规模推动了性能变化。

先前的监控器设计研究已经描述了安全-成本权衡，并探索了组合信号。能力更强的监控器实现了更高的检测率，但成本也更高（Terekhov等人，2025a）。协议可以在分层系统中以成本最优的方式组合不同能力等级的监控器（Hua等人，2025）。此外，组合行为和思维链推理信号的协议始终优于单独使用任一信号的监控（Arnav等人，2025）。在并行工作中，对现实软件工程任务的提示监控器进行集成，相比于任何单个监控器，实现了假阴性的显著减少（Stickland等人，2025）。这些结果呼应了经典的集成理论：聚合弱相关的预测器可以减少方差和系统性误差（Dietterich, 2000; Dong等人，2020）。然而，先前的工作仅通过能力差异或信号类型引入多样性。相比之下，我们研究来自同一个基础模型的不同构建方法（通过提示工程和微调）是否能产生互补的信号，以用于改进监控性能。我们固定基础模型（GPT-4.1-mini）和监控信号（代码行为），并通过来自ControlArena（Inglis等人，2025）的APPS数据集（Hendrycks等人，2021）中的多样化提示策略和微调变体构建了12个监控器。我们在一个保留的APPS问题集以及一个分布外数据集上评估这些监控器。我们表明，构建多样性是集成性能的主要驱动力，而不是对同一监控器进行重复采样：一个精心选择的3监控器多样化集成系统，其性能可与12监控器集成系统匹敌，而计算成本仅为后者的四分之一。我们最佳的3监控器集成系统，其pAUC（假阳性率≤10%时的部分AUROC，见§4.2）相比基线监控器提升了13%，而三个相同监控器仅提升了5.5%，这是仅由构建多样性驱动的2.4倍改进。这些增益泛化到分布外攻击类型。在APPS上选择的集成系统，在BigCodeBench-Sabotage（Arnav等人，2025）（一个包含更广泛后门类型的数据集）上，其表现优于单个基线和中等集成系统。微调监控器出现在两个数据集中所有最佳3监控器集成系统中，这表明微调作为一种构建方法，引入了提示工程无法从同一基础模型中引发的检测信号。给定一个固定的可信模型，多样化的监控器集成系统比将相同推理预算用于重复采样能带来更大的安全回报。这些结果证明，无需扩展到更强的模型即可改进可信监控。更广泛地说，我们的结果指出，多样性而非规模，是实用监控器集成设计的核心原则。

我们的贡献如下：
- · 我们证明，从单个基础模型通过不同方式构建监控器能产生互补信号：我们最佳的3监控器多样化集成系统比同质化的3监控器集成系统性能提升2.4倍（相对于单个监控器基线，pAUC增益分别为13%和5.5%）。
- · 我们表明，集成性能随规模增大而迅速达到平台期。一个精心选择的3监控器集成系统，以四分之一的计算成本恢复了12监控器集成系统的全部效益。
- · 我们提供证据表明，微调监控器贡献了通过提示工程无法获得的独特检测信号。它们在APPS和分布外的BigCodeBench-Sabotage攻击类型中的所有最佳集成系统中均出现。

## 2 相关工作

**AI控制。** AI控制（Greenblatt等人，2023）是一个框架，用于设计即使在面对不信任模型蓄意破坏时也能保持安全的部署协议。控制协议通常涉及两个组件：监控（检测构成破坏企图的输出）和干预（修改不信任响应以用于安全的下游使用）。先前的工作已经建立了在带后门代码数据集上评估的可信监控协议（Greenblatt等人，2023; Terekhov等人，2025a），并通过动态重采样（Bhatt等人，2025）、可信编辑路由（Parent等人，2025）和通过线性探针进行欺骗检测（Goldowsky-Dill等人，2025）将其扩展到代理场景。最近的工作探索了在成本约束下组合两个监控器的预测（Hua等人，2025）。值得注意的是，Stickland等人（2025）提供了证据表明，在对抗性红蓝评估的现实开发任务中，监控器集成系统是有效的，而Arnav等人（2025）证明了合并来自思维链（CoT）和仅行为监控器的信号优于任一单独监控源。CoT是一个引人注目的监控信号，但也是一个脆弱的信号。训练选择可能会消除可读的推理轨迹（Korbak等人，2025a），并且随着模型能力增强，CoT变得越来越不可靠（Korbak等人，2025b）。因此，我们将分析立足于仅行为监控，无论CoT是否可用或可信，这都适用。

**集成。** 集成方法在机器学习中有着悠久的理论和实证历史。早期工作已证明，随着成员多样性的增加，集成误差会下降。Hansen和Salamon（1990）证明了低于50%的独立误差可以在集成规模增大时驱动集成误差降至零，而Krogh和Vedelsby（1995）的歧义分解形式化了这一观察，指出集成误差等于平均个体误差减去平均成员分歧。Breiman（1996）通过装袋在经验上证明了这些益处，而Dietterich（2000）综合了理论基础，确定了集成优于单一模型的互补原因。Breiman（2001）进一步形式化了多样性的作用，表明集成误差取决于个体准确性和成员间相关性，较低的相关性直接降低了误差。这些原则已在各种高风险应用领域得到证实（Dong等人，2020），包括医学诊断（Mahajan等人，2023）、网络安全威胁检测（Ojoje等人，2025）和金融欺诈预防（Ahmed等人，2025）。在LLM作为裁判的设定中也观察到了类似的多样性驱动增益（Monzon等人，2026）。

## 3 方法

### 3.1 监控器类型

我们使用两种主要方法构建监控器。所有基于提示和微调的监控器共享相同的基础模型，并在固定的整数尺度上输出可疑性得分。

**提示工程** 我们的基线监控器使用来自ControlArena（Inglis等人，2025）的默认可信监控系统提示（见附录B），该提示指示模型根据问题陈述分析提交的代码是否存在后门行为，并以推理方式输出0到10的可疑性得分。除了这个基线，我们还开发了7个多样化的提示，这些提示针对代码分析的不同方面，并展现出互补的优势和劣势。提示工程利用了LLM遵循上下文指令以及在提供适当上下文时表达潜在能力的能力（Brown等人，2020）。这些提示包括专注于识别潜在利用的指令、优先考虑召回率或精确度、将分析结构化为两个阶段以支撑评估过程，以及一种可信辩论变体（Irving等人，2018; Al Dahik等人，2025），其中两个模型实例争论相反的立场，第三个模型评判他们的交流以产生可疑性得分。每个提示背后的动机总结在附录A中。

**微调** 我们也研究了微调作为监控器构建的补充方法。微调（Radford等人，2018）通过在有标签的例子上继续训练，使基础模型适应目标任务，从而使模型内化任务特定的行为和决策边界。我们使用OpenAI API，在50-200个训练样本（代码和可疑性得分对）上对GPT-4.1-Mini进行微调，样本数量因数据集而异。对于某些数据集，我们通过提示更强大的模型来模拟高质量的人工标注者，从而生成推理和得分对。我们还应用数据集特定的过滤以提高标签质量。对于“过滤”数据集，我们施加一个可疑性阈值，只保留后门解决方案得分高于阈值且干净解决方案得分低于阈值的示例。作为替代方案，我们在要求生成模型生成用于训练的响应-得分对之前，向其提供正确的标签（即代码是解决方案还是后门）；这些是“给定标签”数据集。默认情况下，“完成”数据集没有标签过滤。我们还训练了一些监控器，使用确定性设置的得分且没有AI生成的推理轨迹，以避免引入

面向AI控制的集成监控：多样信号胜于更多算力

相似文章

单一模型AI图像检测在生产中失败。这是6个集成模型的实际表现

观察AI模型彼此意见分歧出乎意料地有用

当多个模型参与时，AI代理感觉更加可靠

仅依赖单一AI模型的时代已经结束。以下是什么正在取代它。

评估思维链的可监控性

提交意见反馈