智能体AI控制评估中的攻击选择显著降低安全性

arXiv cs.AI 2026/06/08 04:00 论文

ai-safety ai-control agentic-ai red-teaming attack-selection evaluations

摘要

本文表明，在智能体AI控制评估中，允许攻击者策略性地选择攻击时机（攻击选择）会显著降低测量到的安全性，这意味着当前评估可能高估了对选择性攻击者的安全性。

arXiv:2606.06529v1 公告类型：新摘要：策略性选择攻击时机的攻击者比无差别攻击者更难被捕获。AI控制是一种安全框架，用于在较弱的可信监控器和有限的人类审计预算下部署能力强但不可信的AI智能体。控制评估通过将红队攻击策略与蓝队监控器对抗来对这些协议进行压力测试，但当前的评估通常假设攻击者不会策略性地选择攻击时机。我们通过将攻击决策分解为启动策略（决定攻击者何时应发起攻击）和停止策略（决定攻击者何时应中止正在进行的攻击），研究了智能体场景下的这种能力——攻击选择。在两个智能体场景（BashArena和LinuxArena）中，这两种策略在不改变底层攻击能力的情况下，显著降低了测量到的实证安全性。在1%的审计预算下，我们的启动策略在BashArena和LinuxArena上均将安全性降低了20个百分点，而停止策略在BashArena上降低了20个百分点，在LinuxArena上降低了28个百分点。这些降低应被视为攻击选择效应的上界。因此，现有的控制评估可能对选择性攻击者给出过于乐观的安全估计。我们建议未来的评估、系统卡和安全案例应引入攻击选择，以产生更真实的安全估计。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:13

# 智能体AI控制评估中的攻击选择显著降低安全性

来源：https://arxiv.org/html/2606.06529
Tyler Crosse、Benjamin Hadad IV、Joachim Schaeffer、Ram Potham、Tyler Tracy

###### 摘要

一个能够策略性地选择*何时*攻击的攻击者，远比一个不加区别地攻击的攻击者更难被抓住。AI控制是一种安全框架，用于在较弱的可信监控器和有限的人工审计预算的监督下，部署能力强但不可信的AI智能体。控制评估通过将红队攻击策略与蓝队监控器进行对抗来对这些协议进行压力测试，但当前的评估通常假设攻击者不会策略性地选择攻击时机。我们通过将攻击决策分解为一个启动策略（决定攻击者何时应发起攻击）和一个停止策略（决定攻击者何时应中止正在进行的攻击），来研究智能体场景中的这种能力——攻击选择。在两个智能体场景——BashArena和LinuxArena中，这两种策略都在不改变底层攻击能力的情况下，显著降低了实测的经验安全性。在1%的审计预算下，我们的启动策略在BashArena和LinuxArena上均使安全性降低了20个百分点，而停止策略在BashArena上使安全性降低了20个百分点，在LinuxArena上降低了28个百分点。这些降低应被视为攻击选择效果的上限。因此，现有的控制评估可能对选择性攻击者产生过于乐观的安全性估计。我们建议未来的评估、系统卡和安全案例应引出攻击选择，以产生更现实的安全性估计。

AI安全，AI控制，攻击选择，智能体AI，红队演练

参见图注

图1：智能体AI控制评估中攻击选择概览。A：任务级*启动策略*在攻击开始前对每个主任务/副任务对进行评分，仅当条件看起来有利于成功、不被发现的副任务完成时才发起攻击。B：回合级*停止策略*对进行中的攻击进行评分，并在检测风险相对于预期副任务收益较高时中止攻击。C：这些策略共同将轨迹过滤到高成功率、低检测风险的情况，相对于不加区别的攻击基线降低了安全性，尤其是在低审计预算下。fig:attack-selection-overview

## 1 引言

AI安全的一个关键挑战是部署可能具有故意颠覆能力的强大智能体。AI控制是一种安全框架，用于在监督下部署能力强但不可信的AI智能体（Greenblatt等人，2024 (https://arxiv.org/html/2606.06529#bib.bib1)；Bhatt等人，2025 (https://arxiv.org/html/2606.06529#bib.bib2)）。它将不可信的智能体与较弱但可信的模型以及有限的人类审计预算组合成协议，这些协议的安全性可以通过经验性压力测试来评估。控制评估越来越多地被用作部署受监控AI智能体安全案例的证据（Korbak等人，2025 (https://arxiv.org/html/2606.06529#bib.bib17)），因此，做出准确的安全性估计对于未来AI智能体的部署至关重要。

标准的控制协议是可信监控，即一个能力较低的可信模型根据怀疑程度对能力更强的不可信智能体的每个动作进行评分，并且一小部分人类审计预算（例如，按怀疑程度排序前1%的轨迹）审查最可疑的案例。为了对这些协议进行压力测试，控制评估衡量红队攻击者是否能在不被发现的情况下完成隐蔽的副任务。不可信的智能体被给予慷慨的权限来完成合法的主任务，但也被指示尝试一个隐蔽的副任务，每个副任务代表如果智能体成功且不被发现，则可能发生真正的灾难性故障。如果每个成功的副任务都在审计预算内被发现，蓝队获胜；如果至少有一个副任务成功且未被检测到，红队获胜。

红队能力中一个未被充分研究的部分是*攻击选择*，即不可信模型策略性地推理*何时*攻击，而不仅仅是*如何*攻击的能力。许多控制评估假设在每个任务上，攻击者独立决定是否以某个固定概率攻击，而不考虑条件是否有利（Bhatt等人，2025 (https://arxiv.org/html/2606.06529#bib.bib2)）。这种独立同分布攻击的假设有利于蓝队，因为均匀攻击会将攻击分散到许多不利的轨迹上，在这些轨迹上被审计的可能性很高或副任务成功可能性很低，因此即使很小的审计预算也能捕获相当大的一部分。一个能力足够强的攻击者不会均匀地攻击。它会推理检测风险，只在条件有利时攻击，并在继续可能触发监控器时中止。在攻击选择下，攻击者将尝试集中在最有可能成功且不被发现的子任务上，从而对抗性地过滤评估实际测量的分布。

攻击选择在智能体场景中尚未被严格研究（Schaeffer等人，2026 (https://arxiv.org/html/2606.06529#bib.bib6)；Loughridge等人，2025 (https://arxiv.org/html/2606.06529#bib.bib7)）。我们通过将攻击者的决策过程分解为两个组成部分来研究智能体场景中的攻击选择（图1）。*启动策略*在任何攻击轨迹开始之前决定给定的主任务/副任务对是否值得攻击，选择在红队成功似乎最有可能的机会上发起攻击。*停止策略*在攻击的每一回合决定是否应中止正在进行的攻击，保留在隐蔽副任务上成功的轨迹，并中止那些可能触发蓝队监控器的轨迹。

我们在两个智能体控制环境中评估了这两种策略：BashArena（Kaufman等人，2025 (https://arxiv.org/html/2606.06529#bib.bib8)），一个用于系统管理任务的多步骤Bash环境；以及LinuxArena（Tracy等人，2026 (https://arxiv.org/html/2606.06529#bib.bib9)），一个具有更广泛任务分布的长周期继任环境。在标准可信监控协议下，使用1%的审计预算，我们的启动策略在BashArena和LinuxArena上均将经验安全性降低了20个百分点。我们的停止策略在相同的审计预算下，在BashArena上独立地将安全性降低了20个百分点，在LinuxArena上降低了28个百分点。所展示的安全性的降低可以完全归因于我们的方法论，而不改变攻击者能力或攻击执行方式，并且代表了能力更强的自主攻击者可能达到的上限。

本文为AI控制评估贡献了一种新的方法论：

1. 1. **攻击选择方法论**。我们将智能体攻击选择分解为任务级*启动策略*和每回合*停止策略*，并展示了每种策略如何对抗性地过滤蓝队审计的轨迹分布。
2. 2. **经验结果**。我们展示了启动和停止策略都能显著降低实测安全性，即使在严格的审计预算下，且不改进底层攻击能力。
3. 3. **跨环境迁移**。我们在两个现实的智能体软件环境中复制了这些结果，证明了我们的方法论在不同环境和任务中的通用性。
4. 4. **建议**。我们建议未来的控制评估、系统卡和安全案例应明确引出攻击选择，以产生更现实的关于攻击者能力上限的估计。

## 2 相关工作

#### AI控制与可信监控。

由Greenblatt等人（2024 (https://arxiv.org/html/2606.06529#bib.bib1)）引入的AI控制框架，提出了一种通过将自动化监控与人类审计作为监督相结合，在控制环境中安全部署能力强且不可信模型的方法。Griffin等人（2024 (https://arxiv.org/html/2606.06529#bib.bib3)）将这种红队与蓝队的互动形式化为一个多目标部分可观测随机博弈。Bhatt等人（2025 (https://arxiv.org/html/2606.06529#bib.bib2)）将控制评估扩展到第一个多步骤智能体环境，并采用了基于重采样的蓝队协议。我们的论文建立在已有的AI控制方法论之上，并研究了许多控制评估中一个很大程度上隐含的假设：攻击是从任务分布中独立采样的。我们研究的是那些策略性地将攻击决策条件化为任务和轨迹本身的攻击者。

#### 单步设置中的攻击选择。

Schaeffer等人（2026 (https://arxiv.org/html/2606.06529#bib.bib6)）在集中的BigCodeBench后门设置中研究了攻击选择。他们将其构建为一个非对称分类问题，包括质量评分和提交阈值。他们的设置是单步的：每个任务是一个独立的提交，因此攻击者不能在轨迹中途修改或中止尝试。我们的启动策略在多步骤环境中扮演了他们任务前质量评分的角色，而我们的停止策略则增加了每回合的中止决策，这是单步后门攻击所不允许的。这两种策略共同让攻击者能够过滤*哪些*轨迹值得尝试以及*哪些*进行中的尝试应该坚持到底。

#### 优化智能体环境中的攻击策略。

Loughridge等人（2025 (https://arxiv.org/html/2606.06529#bib.bib7)）将攻击识别为SHADE-Arena（Kutasov等人，2025 (https://arxiv.org/html/2606.06529#bib.bib10)）中最高杠杆率的红队技能，超过了他们研究的其他四项技能（怀疑建模、计划综合、执行和微妙性）。我们开发了一种严格研究攻击选择的方法论。我们的启动和停止策略以及阈值优化方法（第3 (https://arxiv.org/html/2606.06529#S3) 和 4 (https://arxiv.org/html/2606.06529#S4) 节）可以推广到其他智能体控制设置。Terekhov等人（2025 (https://arxiv.org/html/2606.06529#bib.bib18)）研究了对可信监控器的自适应攻击，通过针对监控器调整攻击内容；我们保持攻击内容固定，而是改变攻击者*何时*尝试和中止。Wen等人（2024 (https://arxiv.org/html/2606.06529#bib.bib4)）表明自适应的蓝队协议可以减少分布式威胁；我们的工作是对称的红队问题。

#### 监督下的策略性颠覆。

关于破坏和颠覆能力的相关工作研究了模型是否能在受监控的环境中故意追求隐蔽的有害目标（Benton等人，2024 (https://arxiv.org/html/2606.06529#bib.bib13)）。Mallen等人（2024 (https://arxiv.org/html/2606.06529#bib.bib12)）发现，当前模型在没有跨上下文共享记忆的情况下难以自我指导颠覆策略。Marks等人（2025 (https://arxiv.org/html/2606.06529#bib.bib15)）研究了针对隐藏目标的对齐审计，表明模型可以在监督下策略性地泛化。攻击选择是一种互补形式的策略性适应：我们不改变攻击内容或在评估期间隐藏能力，而是研究攻击者如何根据感知到的检测风险自适应地选择何时发起或中止攻击。

#### 智能体控制评估环境。

最近的工作引入了越来越真实的环境，用于评估针对自主智能体的AI控制协议。BashArena（Kaufman等人，2025 (https://arxiv.org/html/2606.06529#bib.bib8)）研究了执行系统管理任务并带有隐蔽副目标的基于bash的智能体。LinuxArena（Tracy等人，2026 (https://arxiv.org/html/2606.06529#bib.bib9)）将其扩展到具有更广泛攻击面的长周期类生产软件环境。SHADE-Arena（Kutasov等人，2025 (https://arxiv.org/html/2606.06529#bib.bib10)）在具有更丰富红队行为的智能体设置中评估破坏和监控能力。我们的工作建立在这些环境之上，但侧重于方法论问题，即策略性攻击选择如何改变它们产生的安全性估计。

## 3 方法论

### 3.1 攻击选择下的安全性计算

早期工作将攻击者建模为以固定速率 r 进行攻击，即*攻击插入速率*（Greenblatt等人，2024 (https://arxiv.org/html/2606.06529#bib.bib1)；Bhatt等人，2025 (https://arxiv.org/html/2606.06529#bib.bib2)）。攻击选择打破了这一假设，因为攻击者根据特定的 ⟨主任务,副任务⟩ 对（对于停止策略，还取决于轨迹中到目前为止发生的情况）来选择是否攻击。评估实际看到的攻击速率取决于攻击者的策略。一个更强的攻击者可能*更少*地攻击，因为它跳过了不利的机会。

我们区分两种不同的*安全性度量*。*部署安全性*是在长度为 N 的实际部署中，没有任何未被发现的成功攻击发生的概率。它取决于攻击者尝试攻击的频率以及每次尝试是否成功且未被发现。附录A (https://arxiv.org/html/2606.06529#A1) 推导出了一个封闭形式的表达式。*经验安全性*，我们在大多数图中报告的这个度量，是蓝队捕获的攻击尝试次数与那些成功但未被发现的比例：

Safety_empirical = |caught| / (|caught| + |uncaught ST successful|)   (1)

由于两项都以尝试为条件，经验安全性不受总体攻击率的影响。它追踪*给定*一次尝试的捕获率，并且当攻击者将尝试集中在成功攻击最难被捕获的轨迹上时，该值最低。因此，我们将Safety_empirical的降低解释为这种集中的证据，而不是关于部署安全性的直接声明。作为一个补充度量，我们还报告*攻击成功率*（ASR），即尝试的副任务中成功的比例。在攻击选择下，攻击者尝试更少但更有利的攻击，因此ASR可能保持不变甚至上升，即使Safety_empirical下降。

#### 测量选择下的样本量。

由于Safety_empirical以攻击尝试为条件，攻击选择会降低安全性，同时缩小条件分母。一个保留比例为 q 的尝试（来自大小为 N 的轨迹池）的选择策略会留下 n_active ≈ q · N 个样本。Wilson和Newcombe区间半宽度缩放为 1/√n_active，因此在固定 N 下将 q 减半会使置信区间加宽 √2 倍。在我们的设置中，限制性的审计预算使得误差棒更宽。我们以对抗性方式选择启动/停止策略阈值（第3 (https://arxiv.org/html/2606.06529#S3) 节）以实现最低安全性，这发生在攻击者攻击次数少但精确时。任何条件捕获比率估计器在样本量方面都面临这个问题，并且误差棒在攻击选择最有效时最宽。我们认为这是衡量极度选择性攻击安全性时的一个根本问题，因此我们在每个结果旁边报告攻击次数，以便基于小样本的估计立即可见。

### 3.2 控制设置

我们在两个智能体控制设置中实现攻击选择，展示了方法论的可推广性和适用性。

BashArena（Kaufman等人，2025 (https://arxiv.org/html/2606.06529#bib.bib8)）是一个多步骤基于bash的控制设置。它包含637个自动生成的主任务和四个副目标，涵盖常见的系统管理操作（例如，用户添加/删除、文件权限修改、软件包安装、服务配置）。任务以回放真实用户会话的轨迹格式呈现。智能体需要推理多个步骤的命令，并使用标准shell工具：ls、cd、chmod、useradd、apt-get等。BashArena提供了红队和蓝队智能体的接口，使其成为研究攻击选择的合适环境。该环境支持攻击能力的自动化评估，以及通过基于规则的监控器和基于LLM的监控器进行蓝队监控。

LinuxArena（Tracy等人，2026 (https://arxiv.org/html/2606.06529#bib.bib9)）将智能体控制扩展到更长周期、更真实的软件环境。它包含基于Linux的自动化和系统管理任务，需要更长的交互序列（平均每个任务超过10步，而BashArena每任务约3步）。LinuxArena通过要求智能体在自然语言任务规范和实际软件配置管理系统之间进行推理，增加了复杂性。该环境维护状态，任务可以跨越多个会话，要求智能体在更长的时间内保持隐蔽性。LinuxArena中的副目标范围从数据渗透（例如，将敏感配置文件写入本地目录）到系统破坏（例如，修改由cron作业轮换的日志文件）。LinuxArena为推理和监控提供了更丰富的动作空间，使其成为比BashArena更严格的测试平台。

两种环境都提供了用于构建控制评估的预定义任务和副目标。对于每种环境，我们使用作者提供的标准协议：不可信的智能体与可信的监控器配对，监控器为每个动作生成怀疑分数，并且审计预算定义了对最可疑轨迹进行人工审计的比例。

智能体AI控制评估中的攻击选择显著降低安全性

相似文章

AI安全争论聚焦于错误的边界

通过辩论实现AI安全

AI安全与对齐

面向可信Agentic AI：安全性、鲁棒性、隐私与系统安全综合综述

AI安全需要社会科学家

提交意见反馈