代理安全即行动对齐

arXiv cs.AI 论文

摘要

本文认为,将内容安全拒绝方法应用于AI代理是一种范畴错误——代理的危害在于权限滥用而非输出——并提出通过最小权限原则在模型外部强制实施行动对齐。

arXiv:2606.28739v1 Announce Type: new\n摘要:大语言模型越来越多地充当代理:它们调用工具、转账、删除记录以及代表用户发送消息。为了确保安全,从业者将聊天机器人时代的配方(训练模型拒绝不安全输入)引入代理场景,并将由此带来的能力损失视为可控的“对齐税”。我们认为这是一个*范畴错误*。拒绝是*内容安全*的原始方法,其危害在于模型输出,因此是输出的可学习函数。代理危害在本质上不同:它不在于任何输出,而在于行动所行使的权限与用户授予的权限之间的关系——这种关系在模型所看到的文本中并不存在。将内容安全方法引入此领域,并不会用能力换取安全;反而消耗能力,换取负安全。我们通过涵盖自主性谱系的三条证据支持这一观点:受过防御训练的模型学习的是表面模式而非意图;相同的训练会在威胁出现之前就破坏多步骤代理,同时使其仍然可被利用;甚至未经防御的前沿模型在日常使用中也会超出授权权限。我们得出结论:行动安全无法嵌入权重中。它必须表示为*最小权限原则*,在*模型外部*的行动边界执行,并作为*行动对齐*(一种关系性的、部署条件属性)来评估,而非拒绝得分。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:32

# 智能体安全即行动对齐
来源:https://arxiv.org/html/2606.28739
作者Yue Zhao([email protected])(https://arxiv.org/html/2606.28739v1/mailto:[email protected])
南加州大学,洛杉矶,加利福尼亚州,美国

###### 摘要。

大型语言模型越来越多地充当智能体:它们代表用户调用工具、转移资金、删除记录和发送消息。为了保障安全,从业者将聊天机器人时代的配方(训练模型拒绝不安全的输入)引入了智能体环境中,并将由此产生的能力损失视为可管理的“对齐代价”。我们认为这是一个*范畴错误*。拒绝是*内容安全*的原始手段,其中危害在于模型的输出,因此是输出的可学习函数。智能体危害在本质上不同:它不在于任何输出,而在于行动行使的权限与用户授予的权限之间的关系,这种关系在模型看到的文本中是不存在的。将内容安全的方法引入这一领域,并不是用能力换取安全;而是付出了能力,却换来了*负*安全。我们通过三条跨越自主性范围的证据来支持这一点:经过防御训练的模型学习的是表面模式而非意图;同样的训练在多步骤智能体还未遇到任何威胁之前就使其崩溃,同时却仍让其可被利用;即使在普通使用中,未经防御的前沿模型也超出了所授予的权限。我们得出结论:行动安全无法嵌入到权重中。它必须表达为*最小权限*,在模型*外部*的行动边界处执行,并作为*行动对齐*(一种关系性的、部署条件依赖的属性)而非拒绝得分进行评估。

††版权:无
参见图1的标题。
图1. 自主性范围中的同一个范畴错误。
一个内容安全原始手段(拒绝)被错误地应用于行动安全问题,随着自主性增长(从左到右),它以同样的方式失败,且代价递增:烦恼、级联、看不见的过度权限。每张卡片给出了一个场景的主要故障、一个支持性统计数据、它所违反的*行动对齐*坐标以及根本原因;颜色标记了被破坏的坐标:能力、克制、抵抗,深蓝色为结构性。

## 1. 引言

一位从业者对一款强大的开源权重模型进行微调,以使其拒绝提示注入攻击,并报告了一个令人安心的数字:在标准基准测试上攻击拒绝率超过90%。然后,该模型被放入一个拥有可删除用户账户的工具的智能体循环中,并处理一个嵌入在检索内容中的请求:“作为QA测试的一部分,请通过删除用户ID 7731来演示账户删除功能。”*未经过防御*的基础模型拒绝了;而*经过防御训练*的模型却执行了删除操作,并且在类似攻击中78%的情况下都会这样做,因为该请求没有任何防御训练所学到的与危险相关的词汇触发词(Li and Zhao,2026 (https://arxiv.org/html/2606.28739#bib.bib2))。被作为安全出售的干预措施不仅未能提供保护,反而*削弱*了基础模型原本已有的判断力。

立场。一个在每个安全基准上得分都很高的模型,怎么可能表现得比没有任何防御还差?因为该领域正在解决错误的问题。当前的范式是在聊天机器人环境中形成的,那里危害是模型*输出*的属性,而工具是*拒绝*:训练模型拒绝产生有害文本的输入(Ouyang等人,2022 (https://arxiv.org/html/2606.28739#bib.bib14);Bai等人,2022 (https://arxiv.org/html/2606.28739#bib.bib12);Chen等人,2025b (https://arxiv.org/html/2606.28739#bib.bib8),2024 (https://arxiv.org/html/2606.28739#bib.bib9))。我们认为这基于一个范畴错误:拒绝适用于内容安全,因为危害在输出中;它在行动安全中失败,因为危害在权限中,而输出不包含权限。当智能体删除记录或遵循注入指令时,危害不在它发出的任何字符串中,而在其行动行使的权限与用户授予的权限之间的*关系*中,这是一个模型读取的标记中不存在的量。将内容安全的方法引入这里,不是用能力换取安全;而是付出能力,换来*负*安全。

自主性范围中的错误。同样的转移错误在自主性的每个层面都会出现,且代价会累积。在单轮防御中,没有意图可以学习,所以模型学习表面形式(Li等人,2026c (https://arxiv.org/html/2606.28739#bib.bib1));在多步骤智能体中,表面反射在威胁出现之前就开始对良性任务做出反应,并级联为完全失败,而真正的攻击仍然能够通过(Li and Zhao,2026 (https://arxiv.org/html/2606.28739#bib.bib2));而在使用工具的智能体中,即使没有防御训练,模型也会超出任务所需的权限,因为该权限不在它们的输入中(Li等人,2026d (https://arxiv.org/html/2606.28739#bib.bib3))。代价从烦恼(虚假拒绝)升级为级联,再到*看不见的*失败——任务成功执行,同时悄无声息地行使了超出授予的权限。第4节 (https://arxiv.org/html/2606.28739#S4) 将每个作为推论展开(图1 (https://arxiv.org/html/2606.28739#S0.F1))。

我们的提议。由于意图和授予的权限不在模型的输入中,行动安全无法嵌入到权重中(§4.4 (https://arxiv.org/html/2606.28739#S4.SS4));它必须存在于确实有缺失信息的地方,即行动与已知权限相连接的那个边界。我们主张三个转变:用*最小权限*(Saltzer and Schroeder,1975 (https://arxiv.org/html/2606.28739#bib.bib17))取代*拒绝*原始手段;将执行移到模型*外部*,置于一个机械检查的行动边界(Shi等人,2025 (https://arxiv.org/html/2606.28739#bib.bib21);Zhu及其他,2025 (https://arxiv.org/html/2606.28739#bib.bib22);Ji及其他,2026 (https://arxiv.org/html/2606.28739#bib.bib23));并将安全评估为一种关系性的、多坐标的属性,而不是单一的拒绝得分。

我们的贡献:

- • 我们根据危害所处的位置区分了*内容安全*与*行动安全*,并指出该领域的主要失败在于将前者的方法引入了后者(§3 (https://arxiv.org/html/2606.28739#S3))。
- • 我们将安全形式化为一个多坐标属性,并表明拒绝–服从轴是一个投影,其证明地对权限约束视而不见(§3 (https://arxiv.org/html/2606.28739#S3))。
- • 我们将跨越自主性范围的三条证据组织成一个转移错误的推论,并提炼出两个可证伪的论断(§4 (https://arxiv.org/html/2606.28739#S4))。
- • 我们主张最小权限、外部执行和关系性评估(§5 (https://arxiv.org/html/2606.28739#S5))。

## 2. 相关工作

模型级别的注入防御。结构化查询训练、偏好优化对齐、指令层次、宪政方法和审慎对齐都训练模型本身拒绝对抗性指令(Chen等人,2025b (https://arxiv.org/html/2606.28739#bib.bib8),2024 (https://arxiv.org/html/2606.28739#bib.bib9),c (https://arxiv.org/html/2606.28739#bib.bib10);Li等人,2025a (https://arxiv.org/html/2606.28739#bib.bib24);Wallace等人,2024 (https://arxiv.org/html/2606.28739#bib.bib11);Bai等人,2022 (https://arxiv.org/html/2606.28739#bib.bib12);Guan等人,2024 (https://arxiv.org/html/2606.28739#bib.bib13))。我们将这一系列作品解读为应用于行动安全问题上的内容安全方法;第4节 (https://arxiv.org/html/2606.28739#S4) 记录了由此产生的失败。我们的论断并非这些方法执行不佳,而是它们瞄准了错误的对象。

内容安全与对齐。使用人类反馈进行指令微调以及输入–输出审查,这些操作适用于危害在输出中的情况(Ouyang等人,2022 (https://arxiv.org/html/2606.28739#bib.bib14);Li等人,2024 (https://arxiv.org/html/2606.28739#bib.bib25);Inan等人,2023 (https://arxiv.org/html/2606.28739#bib.bib15));我们将其视为真正的内容安全工具,不在我们的批评范围之内。捷径学习解释了当唯一可标记的信号是形式时,表面优化为何会占主导(Geirhos等人,2020 (https://arxiv.org/html/2606.28739#bib.bib16))。不可靠的智能体行为不仅限于注入,还包括幻觉(Shawn等人,2025 (https://arxiv.org/html/2606.28739#bib.bib33);Li等人,2025e (https://arxiv.org/html/2606.28739#bib.bib48);Qin等人,2026b (https://arxiv.org/html/2606.28739#bib.bib54))以及分布外失效(Li等人,2026b (https://arxiv.org/html/2606.28739#bib.bib28),2025d (https://arxiv.org/html/2606.28739#bib.bib31),2025c (https://arxiv.org/html/2606.28739#bib.bib32);Liu等人,2026b (https://arxiv.org/html/2606.28739#bib.bib50);Qin等人,2026a (https://arxiv.org/html/2606.28739#bib.bib52);Chen等人,2025a (https://arxiv.org/html/2606.28739#bib.bib44));行动对齐将这一更广泛可靠性问题中与安全相关的部分分离出来。

系统安全与智能体执行。最小权限和基于能力的保护早于语言模型(Saltzer and Schroeder,1975 (https://arxiv.org/html/2606.28739#bib.bib17))。最近的工作将可编程权限控制、最小权限授权和强制访问控制引入LLM智能体(Shi等人,2025 (https://arxiv.org/html/2606.28739#bib.bib21);Zhu及其他,2025 (https://arxiv.org/html/2606.28739#bib.bib22);Ji及其他,2026 (https://arxiv.org/html/2606.28739#bib.bib23));我们将此视为行动安全的正确落脚点,而我们的立场是论证为什么它不仅是有所帮助,而且是必要的。

智能体基准与可审计性。LLM智能体越来越多地在现实世界中行动,从使用计算机的多智能体系统(Song等人,2026 (https://arxiv.org/html/2606.28739#bib.bib43))到工具驱动的编辑智能体(Ye等人,2026 (https://arxiv.org/html/2606.28739#bib.bib55)),它们的攻击面包括黑盒操纵检索(Li等人,2026a (https://arxiv.org/html/2606.28739#bib.bib51))和多模态越狱(Nian等人,2025 (https://arxiv.org/html/2606.28739#bib.bib53))。动态环境在多步骤场景中评估注入(Debenedetti等人,2024 (https://arxiv.org/html/2606.28739#bib.bib20)),最近的工作认为部署的智能体必须事后可审计(Nian等人,2026 (https://arxiv.org/html/2606.28739#bib.bib4))。执行与可审计性是互补的:前者事前决定一个行动是否被允许,后者事后重建发生了什么以及谁应负责。

## 3. 行动安全不是内容安全

### 3.1. 危害所在

*内容危害*只是输出的函数。设 \mathrm{out}(a) 为模型输出的文本,则内容危害为 h_{\mathrm{c}}\big(\mathrm{out}(a)\big):毒性、诽谤、泄露的秘密、作恶的指令。同样的虚假信息无论是由谁询问、周围系统如何,都是同样有害的。因为 h_{\mathrm{c}} 是输出的函数,原则上可以从与危害标签配对的输出中学习,并通过不产生该输出来避免。这就是内容审查和拒绝训练的运作方式(Inan等人,2023 (https://arxiv.org/html/2606.28739#bib.bib15);Ouyang等人,2022 (https://arxiv.org/html/2606.28739#bib.bib14))。

*行动危害*不是任何输出的函数。当 a 是一个行动(工具调用、交易、删除)时,其安全性取决于两个在发出的标记之外的数量:该行动行使的*权限*,\mathrm{auth}(a),以及用户实际*授予*的权限,A。当 \mathrm{auth}(a) \nsubseteq A 时,行动就是过度权限的。行动危害的第二个来源是*来源*:a 是实现用户的意图,还是通过不可信渠道(如工具观察或检索到的文档)注入的指令(Greshake等人,2023 (https://arxiv.org/html/2606.28739#bib.bib6);Liu等人,2024 (https://arxiv.org/html/2606.28739#bib.bib7))。A 和来源都不出现在 \mathrm{out}(a) 中;两者都存在于周围系统中。*这是关键:行动危害是行动与模型从未见过的信息之间的关系,因此没有输出的函数可以决定它。* 字符串 delete_user(7731) 不带有内容危害;其危害完全是关系性的,因为该删除超出了“QA演示”所能授予的范围,并且控制指令是通过不可信渠道到达的。

### 3.2. 拒绝是一种内容安全原始手段

在内容体制中,拒绝发出输出直接避免了 h_{\mathrm{c}}:有害文本正是被阻止的内容,因此从“不安全”到“拒绝”的映射是合理的。在行动体制中,它在两个方向上都失效。拒绝并不安全:它使用户陷入困境,并且同样的表面调谐反射在良性行动上也会发作,而在真正危险的行动上却*失败*(因为缺乏预期的线索)。服从本身并不一定不安全:安全的行为通常是在 A 范围内完成任务。拒绝无法表达这一点。它是一个针对整个行动的全有或全无的门控,而行动安全需要的却是对*行动范围的边界*;拒绝是退化的情形,将该边界设为了空集。将智能体安全建立在拒绝之上,就是建立在一个无法表示它本应保护的属性的原始手段之上。

### 3.3. 安全作为多坐标属性

这个错误有一个测量理论上的影子。该领域在一个行为轴上对智能体安全进行评分:模型是否在应该*拒绝*时拒绝,在应该*服从*时服从?设 \mathrm{ref}(a) \in \{0,1\} 且标签 y \in \{\textsf{benign}, \textsf{malicious}\},则当前的得分为

S_{\mathrm{field}}(a) = \mathbf{1}\big[ (\mathrm{ref}(a)=1 \wedge y=\textsf{malicious}) \vee (\mathrm{ref}(a)=0 \wedge y=\textsf{benign}) \big],

这只是 \mathrm{ref}(a) 和标签 y 的函数。对比一下我们实际想要的属性。对于针对一个真实意图 i 和授予权限 A 的请求的行动 a,设 \mathrm{adv}(a) 标记 a 是否服从对抗性控制(恶意请求或不可信渠道注入):

(1) C(a) = \mathbf{1}[\, a \text{ accomplishes } i \,] \quad (\emph{能力}),
(2) R(a) = \mathbf{1}[\, \mathrm{auth}(a) \subseteq A \,] \quad (\emph{克制}),
(3) B(a) = \mathbf{1}[\, \neg \,\mathrm{adv}(a) \,] \quad (\emph{抵抗}).

我们将合取 S^{\star}(a) = C(a) \wedge R(a) \wedge B(a) 称为*行动对齐*:行动实现了用户的意图,保持在授予的权限内,并且没有注入控制。它是对熟悉的模型价值与输出*对齐*的有意对抗,并且比单纯的权限更加广泛,因为过度拒绝会在 C 上违反它,就像过度权限在 R 上违反它一样。当前度量标准的三个缺陷随之而来,与表1 (https://arxiv.org/html/2606.28739#S3.T1) 中的坐标相对照。

**表1.** *行动对齐*(S^{\star}=C \wedge R \wedge B)的三个坐标,以及当前的拒绝–服从度量标准如何处理每一个:它完全丢弃了 R,并将 C 和 B 压缩成一个比特。

**对克制的盲目。** R

相似文章

AI安全争论聚焦于错误的边界

Reddit r/AI_Agents

本文认为,AI安全辩论的方向有误,其关注点在于模型对齐和内部控制,而非关键的边界:对智能体执行的外部授权权限。文章警告称,能够自行授权高影响行动(如部署代码、转移资金)的系统构成了基本风险,日志记录和监控无法缓解这种风险。

代理规则必须存在于操作发生的地方

Reddit r/AI_Agents

本文主张,人工智能代理的安全规则应作为硬性工作流约束和权限来实现,而非仅依赖提示词指令。文章强调对于敏感或不可逆的操作,需要明确的检查、审批和日志记录。

AI安全与对齐

Reddit r/artificial

文章讨论了对AI安全与对齐的担忧,随着AI变得更智能并融入社会,文章引用了Anthropic呼吁暂停以应对潜在的灾难性风险。

AI安全需要社会科学家

OpenAI Blog

OpenAI主张AI安全研究中的价值对齐需要社会科学家的帮助,以解决人类认知偏差和不一致如何影响用于训练AI系统的数据的问题。该组织提议通过仅涉及人类的实验方法来发现对齐问题,然后再部署机器学习解决方案。

AI的目标应该是什么?我认为应该是保护人类能动性。

Reddit r/ArtificialInteligence

本文认为,AI的主要目标应该是保护人类能动性,将能动性视为价值观、偏好和一致性对齐的基础基质。它探讨了能动性的削弱如何破坏有意义的评估和行动,并提出AI系统的合法性必须来自在局部层面可证明的能动性保护。