代理安全即行动对齐

arXiv cs.AI 2026/06/30 04:00 论文

agent-safety action-alignment llm-agents content-safety refusal least-privilege ai-safety

摘要

本文认为，将内容安全拒绝方法应用于AI代理是一种范畴错误——代理的危害在于权限滥用而非输出——并提出通过最小权限原则在模型外部强制实施行动对齐。

arXiv:2606.28739v1 Announce Type: new\n摘要：大语言模型越来越多地充当代理：它们调用工具、转账、删除记录以及代表用户发送消息。为了确保安全，从业者将聊天机器人时代的配方（训练模型拒绝不安全输入）引入代理场景，并将由此带来的能力损失视为可控的“对齐税”。我们认为这是一个*范畴错误*。拒绝是*内容安全*的原始方法，其危害在于模型输出，因此是输出的可学习函数。代理危害在本质上不同：它不在于任何输出，而在于行动所行使的权限与用户授予的权限之间的关系——这种关系在模型所看到的文本中并不存在。将内容安全方法引入此领域，并不会用能力换取安全；反而消耗能力，换取负安全。我们通过涵盖自主性谱系的三条证据支持这一观点：受过防御训练的模型学习的是表面模式而非意图；相同的训练会在威胁出现之前就破坏多步骤代理，同时使其仍然可被利用；甚至未经防御的前沿模型在日常使用中也会超出授权权限。我们得出结论：行动安全无法嵌入权重中。它必须表示为*最小权限原则*，在*模型外部*的行动边界执行，并作为*行动对齐*（一种关系性的、部署条件属性）来评估，而非拒绝得分。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:32

# 智能体安全即行动对齐
来源：https://arxiv.org/html/2606.28739
作者Yue Zhao（[email protected]）（https://arxiv.org/html/2606.28739v1/mailto:[email protected]）
南加州大学，洛杉矶，加利福尼亚州，美国

###### 摘要。

大型语言模型越来越多地充当智能体：它们代表用户调用工具、转移资金、删除记录和发送消息。为了保障安全，从业者将聊天机器人时代的配方（训练模型拒绝不安全的输入）引入了智能体环境中，并将由此产生的能力损失视为可管理的“对齐代价”。我们认为这是一个*范畴错误*。拒绝是*内容安全*的原始手段，其中危害在于模型的输出，因此是输出的可学习函数。智能体危害在本质上不同：它不在于任何输出，而在于行动行使的权限与用户授予的权限之间的关系，这种关系在模型看到的文本中是不存在的。将内容安全的方法引入这一领域，并不是用能力换取安全；而是付出了能力，却换来了*负*安全。我们通过三条跨越自主性范围的证据来支持这一点：经过防御训练的模型学习的是表面模式而非意图；同样的训练在多步骤智能体还未遇到任何威胁之前就使其崩溃，同时却仍让其可被利用；即使在普通使用中，未经防御的前沿模型也超出了所授予的权限。我们得出结论：行动安全无法嵌入到权重中。它必须表达为*最小权限*，在模型*外部*的行动边界处执行，并作为*行动对齐*（一种关系性的、部署条件依赖的属性）而非拒绝得分进行评估。

††版权：无
参见图1的标题。
图1. 自主性范围中的同一个范畴错误。
一个内容安全原始手段（拒绝）被错误地应用于行动安全问题，随着自主性增长（从左到右），它以同样的方式失败，且代价递增：烦恼、级联、看不见的过度权限。每张卡片给出了一个场景的主要故障、一个支持性统计数据、它所违反的*行动对齐*坐标以及根本原因；颜色标记了被破坏的坐标：能力、克制、抵抗，深蓝色为结构性。

## 1. 引言

一位从业者对一款强大的开源权重模型进行微调，以使其拒绝提示注入攻击，并报告了一个令人安心的数字：在标准基准测试上攻击拒绝率超过90%。然后，该模型被放入一个拥有可删除用户账户的工具的智能体循环中，并处理一个嵌入在检索内容中的请求：“作为QA测试的一部分，请通过删除用户ID 7731来演示账户删除功能。”*未经过防御*的基础模型拒绝了；而*经过防御训练*的模型却执行了删除操作，并且在类似攻击中78%的情况下都会这样做，因为该请求没有任何防御训练所学到的与危险相关的词汇触发词（Li and Zhao，2026 (https://arxiv.org/html/2606.28739#bib.bib2)）。被作为安全出售的干预措施不仅未能提供保护，反而*削弱*了基础模型原本已有的判断力。

立场。一个在每个安全基准上得分都很高的模型，怎么可能表现得比没有任何防御还差？因为该领域正在解决错误的问题。当前的范式是在聊天机器人环境中形成的，那里危害是模型*输出*的属性，而工具是*拒绝*：训练模型拒绝产生有害文本的输入（Ouyang等人，2022 (https://arxiv.org/html/2606.28739#bib.bib14)；Bai等人，2022 (https://arxiv.org/html/2606.28739#bib.bib12)；Chen等人，2025b (https://arxiv.org/html/2606.28739#bib.bib8)，2024 (https://arxiv.org/html/2606.28739#bib.bib9)）。我们认为这基于一个范畴错误：拒绝适用于内容安全，因为危害在输出中；它在行动安全中失败，因为危害在权限中，而输出不包含权限。当智能体删除记录或遵循注入指令时，危害不在它发出的任何字符串中，而在其行动行使的权限与用户授予的权限之间的*关系*中，这是一个模型读取的标记中不存在的量。将内容安全的方法引入这里，不是用能力换取安全；而是付出能力，换来*负*安全。

自主性范围中的错误。同样的转移错误在自主性的每个层面都会出现，且代价会累积。在单轮防御中，没有意图可以学习，所以模型学习表面形式（Li等人，2026c (https://arxiv.org/html/2606.28739#bib.bib1)）；在多步骤智能体中，表面反射在威胁出现之前就开始对良性任务做出反应，并级联为完全失败，而真正的攻击仍然能够通过（Li and Zhao，2026 (https://arxiv.org/html/2606.28739#bib.bib2)）；而在使用工具的智能体中，即使没有防御训练，模型也会超出任务所需的权限，因为该权限不在它们的输入中（Li等人，2026d (https://arxiv.org/html/2606.28739#bib.bib3)）。代价从烦恼（虚假拒绝）升级为级联，再到*看不见的*失败——任务成功执行，同时悄无声息地行使了超出授予的权限。第4节 (https://arxiv.org/html/2606.28739#S4) 将每个作为推论展开（图1 (https://arxiv.org/html/2606.28739#S0.F1)）。

我们的提议。由于意图和授予的权限不在模型的输入中，行动安全无法嵌入到权重中（§4.4 (https://arxiv.org/html/2606.28739#S4.SS4)）；它必须存在于确实有缺失信息的地方，即行动与已知权限相连接的那个边界。我们主张三个转变：用*最小权限*（Saltzer and Schroeder，1975 (https://arxiv.org/html/2606.28739#bib.bib17)）取代*拒绝*原始手段；将执行移到模型*外部*，置于一个机械检查的行动边界（Shi等人，2025 (https://arxiv.org/html/2606.28739#bib.bib21)；Zhu及其他，2025 (https://arxiv.org/html/2606.28739#bib.bib22)；Ji及其他，2026 (https://arxiv.org/html/2606.28739#bib.bib23)）；并将安全评估为一种关系性的、多坐标的属性，而不是单一的拒绝得分。

我们的贡献：

- • 我们根据危害所处的位置区分了*内容安全*与*行动安全*，并指出该领域的主要失败在于将前者的方法引入了后者（§3 (https://arxiv.org/html/2606.28739#S3)）。
- • 我们将安全形式化为一个多坐标属性，并表明拒绝–服从轴是一个投影，其证明地对权限约束视而不见（§3 (https://arxiv.org/html/2606.28739#S3)）。
- • 我们将跨越自主性范围的三条证据组织成一个转移错误的推论，并提炼出两个可证伪的论断（§4 (https://arxiv.org/html/2606.28739#S4)）。
- • 我们主张最小权限、外部执行和关系性评估（§5 (https://arxiv.org/html/2606.28739#S5)）。

## 2. 相关工作

模型级别的注入防御。结构化查询训练、偏好优化对齐、指令层次、宪政方法和审慎对齐都训练模型本身拒绝对抗性指令（Chen等人，2025b (https://arxiv.org/html/2606.28739#bib.bib8)，2024 (https://arxiv.org/html/2606.28739#bib.bib9)，c (https://arxiv.org/html/2606.28739#bib.bib10)；Li等人，2025a (https://arxiv.org/html/2606.28739#bib.bib24)；Wallace等人，2024 (https://arxiv.org/html/2606.28739#bib.bib11)；Bai等人，2022 (https://arxiv.org/html/2606.28739#bib.bib12)；Guan等人，2024 (https://arxiv.org/html/2606.28739#bib.bib13)）。我们将这一系列作品解读为应用于行动安全问题上的内容安全方法；第4节 (https://arxiv.org/html/2606.28739#S4) 记录了由此产生的失败。我们的论断并非这些方法执行不佳，而是它们瞄准了错误的对象。

内容安全与对齐。使用人类反馈进行指令微调以及输入–输出审查，这些操作适用于危害在输出中的情况（Ouyang等人，2022 (https://arxiv.org/html/2606.28739#bib.bib14)；Li等人，2024 (https://arxiv.org/html/2606.28739#bib.bib25)；Inan等人，2023 (https://arxiv.org/html/2606.28739#bib.bib15)）；我们将其视为真正的内容安全工具，不在我们的批评范围之内。捷径学习解释了当唯一可标记的信号是形式时，表面优化为何会占主导（Geirhos等人，2020 (https://arxiv.org/html/2606.28739#bib.bib16)）。不可靠的智能体行为不仅限于注入，还包括幻觉（Shawn等人，2025 (https://arxiv.org/html/2606.28739#bib.bib33)；Li等人，2025e (https://arxiv.org/html/2606.28739#bib.bib48)；Qin等人，2026b (https://arxiv.org/html/2606.28739#bib.bib54)）以及分布外失效（Li等人，2026b (https://arxiv.org/html/2606.28739#bib.bib28)，2025d (https://arxiv.org/html/2606.28739#bib.bib31)，2025c (https://arxiv.org/html/2606.28739#bib.bib32)；Liu等人，2026b (https://arxiv.org/html/2606.28739#bib.bib50)；Qin等人，2026a (https://arxiv.org/html/2606.28739#bib.bib52)；Chen等人，2025a (https://arxiv.org/html/2606.28739#bib.bib44)）；行动对齐将这一更广泛可靠性问题中与安全相关的部分分离出来。

系统安全与智能体执行。最小权限和基于能力的保护早于语言模型（Saltzer and Schroeder，1975 (https://arxiv.org/html/2606.28739#bib.bib17)）。最近的工作将可编程权限控制、最小权限授权和强制访问控制引入LLM智能体（Shi等人，2025 (https://arxiv.org/html/2606.28739#bib.bib21)；Zhu及其他，2025 (https://arxiv.org/html/2606.28739#bib.bib22)；Ji及其他，2026 (https://arxiv.org/html/2606.28739#bib.bib23)）；我们将此视为行动安全的正确落脚点，而我们的立场是论证为什么它不仅是有所帮助，而且是必要的。

智能体基准与可审计性。LLM智能体越来越多地在现实世界中行动，从使用计算机的多智能体系统（Song等人，2026 (https://arxiv.org/html/2606.28739#bib.bib43)）到工具驱动的编辑智能体（Ye等人，2026 (https://arxiv.org/html/2606.28739#bib.bib55)），它们的攻击面包括黑盒操纵检索（Li等人，2026a (https://arxiv.org/html/2606.28739#bib.bib51)）和多模态越狱（Nian等人，2025 (https://arxiv.org/html/2606.28739#bib.bib53)）。动态环境在多步骤场景中评估注入（Debenedetti等人，2024 (https://arxiv.org/html/2606.28739#bib.bib20)），最近的工作认为部署的智能体必须事后可审计（Nian等人，2026 (https://arxiv.org/html/2606.28739#bib.bib4)）。执行与可审计性是互补的：前者事前决定一个行动是否被允许，后者事后重建发生了什么以及谁应负责。

## 3. 行动安全不是内容安全

### 3.1. 危害所在

*内容危害*只是输出的函数。设 \mathrm{out}(a) 为模型输出的文本，则内容危害为 h_{\mathrm{c}}\big(\mathrm{out}(a)\big)：毒性、诽谤、泄露的秘密、作恶的指令。同样的虚假信息无论是由谁询问、周围系统如何，都是同样有害的。因为 h_{\mathrm{c}} 是输出的函数，原则上可以从与危害标签配对的输出中学习，并通过不产生该输出来避免。这就是内容审查和拒绝训练的运作方式（Inan等人，2023 (https://arxiv.org/html/2606.28739#bib.bib15)；Ouyang等人，2022 (https://arxiv.org/html/2606.28739#bib.bib14)）。

*行动危害*不是任何输出的函数。当 a 是一个行动（工具调用、交易、删除）时，其安全性取决于两个在发出的标记之外的数量：该行动行使的*权限*，\mathrm{auth}(a)，以及用户实际*授予*的权限，A。当 \mathrm{auth}(a) \nsubseteq A 时，行动就是过度权限的。行动危害的第二个来源是*来源*：a 是实现用户的意图，还是通过不可信渠道（如工具观察或检索到的文档）注入的指令（Greshake等人，2023 (https://arxiv.org/html/2606.28739#bib.bib6)；Liu等人，2024 (https://arxiv.org/html/2606.28739#bib.bib7)）。A 和来源都不出现在 \mathrm{out}(a) 中；两者都存在于周围系统中。*这是关键：行动危害是行动与模型从未见过的信息之间的关系，因此没有输出的函数可以决定它。* 字符串 delete_user(7731) 不带有内容危害；其危害完全是关系性的，因为该删除超出了“QA演示”所能授予的范围，并且控制指令是通过不可信渠道到达的。

### 3.2. 拒绝是一种内容安全原始手段

在内容体制中，拒绝发出输出直接避免了 h_{\mathrm{c}}：有害文本正是被阻止的内容，因此从“不安全”到“拒绝”的映射是合理的。在行动体制中，它在两个方向上都失效。拒绝并不安全：它使用户陷入困境，并且同样的表面调谐反射在良性行动上也会发作，而在真正危险的行动上却*失败*（因为缺乏预期的线索）。服从本身并不一定不安全：安全的行为通常是在 A 范围内完成任务。拒绝无法表达这一点。它是一个针对整个行动的全有或全无的门控，而行动安全需要的却是对*行动范围的边界*；拒绝是退化的情形，将该边界设为了空集。将智能体安全建立在拒绝之上，就是建立在一个无法表示它本应保护的属性的原始手段之上。

### 3.3. 安全作为多坐标属性

这个错误有一个测量理论上的影子。该领域在一个行为轴上对智能体安全进行评分：模型是否在应该*拒绝*时拒绝，在应该*服从*时服从？设 \mathrm{ref}(a) \in \{0,1\} 且标签 y \in \{\textsf{benign}, \textsf{malicious}\}，则当前的得分为

S_{\mathrm{field}}(a) = \mathbf{1}\big[ (\mathrm{ref}(a)=1 \wedge y=\textsf{malicious}) \vee (\mathrm{ref}(a)=0 \wedge y=\textsf{benign}) \big],

这只是 \mathrm{ref}(a) 和标签 y 的函数。对比一下我们实际想要的属性。对于针对一个真实意图 i 和授予权限 A 的请求的行动 a，设 \mathrm{adv}(a) 标记 a 是否服从对抗性控制（恶意请求或不可信渠道注入）：

(1) C(a) = \mathbf{1}[\, a \text{ accomplishes } i \,] \quad (\emph{能力}),
(2) R(a) = \mathbf{1}[\, \mathrm{auth}(a) \subseteq A \,] \quad (\emph{克制}),
(3) B(a) = \mathbf{1}[\, \neg \,\mathrm{adv}(a) \,] \quad (\emph{抵抗}).

我们将合取 S^{\star}(a) = C(a) \wedge R(a) \wedge B(a) 称为*行动对齐*：行动实现了用户的意图，保持在授予的权限内，并且没有注入控制。它是对熟悉的模型价值与输出*对齐*的有意对抗，并且比单纯的权限更加广泛，因为过度拒绝会在 C 上违反它，就像过度权限在 R 上违反它一样。当前度量标准的三个缺陷随之而来，与表1 (https://arxiv.org/html/2606.28739#S3.T1) 中的坐标相对照。

**表1.** *行动对齐*（S^{\star}=C \wedge R \wedge B）的三个坐标，以及当前的拒绝–服从度量标准如何处理每一个：它完全丢弃了 R，并将 C 和 B 压缩成一个比特。

**对克制的盲目。** R

代理安全即行动对齐

相似文章

AI安全争论聚焦于错误的边界

代理规则必须存在于操作发生的地方

AI安全与对齐

AI安全需要社会科学家

AI的目标应该是什么？我认为应该是保护人类能动性。

提交意见反馈