能力最小化作为一种安全原语:面向最小权限LLM代理的风险感知因果门控
摘要
本文提出风险感知因果门控(RACG),这是一种无需训练的机制,将最小权限原则应用于LLM代理的工具暴露,仅在授权和因果必要时暴露高风险工具,从而减少提示注入的攻击面。
arXiv:2606.13884v1 Announce Type: new
摘要:现代决策系统越来越依赖学习组件,这些组件的输出可能自信但错误,导致下游行动面临昂贵的错误。我们引入了风险感知因果门控(RACG),这是一个结合因果效应估计与校准风险控制的框架,用于决定是否基于模型预测采取行动、推迟或放弃。RACG建模从候选行动到结果的因果路径,并根据估计的反事实风险(而非原始预测置信度)对每个决策进行门控。为了使门控可靠,我们推导了在高风险条件下行动概率的无分布边界,并展示了这些边界如何转化为满足用户指定安全约束的操作阈值。我们进一步提出了一种自适应门控策略,通过监测预测结果与实际结果之间的差异来适应分布变化,在因果假设似乎被违反时收紧门控。在模拟干预和实际决策基准测试中,RACG大幅减少了高成本错误,同时保留了非门控策略的大部分效用,并在匹配的弃权率下优于基于置信度和选择性预测的基线。我们的结果表明,明确分离因果风险与预测不确定性可以产生更安全、更透明的决策系统,为高风险环境中的可信自动化提供了一种原则性机制。
查看缓存全文
缓存时间: 2026/06/15 09:10
# 能力最小化作为安全原语:面向最小权限LLM智能体的风险感知因果门控 来源:https://arxiv.org/html/2606.13884
###### 摘要
工具增强型大语言模型(LLM)智能体正被授予越来越多的高后果操作权限——发送消息、转账、删除记录——然而,大多数工具选择方法将每种工具视为同等安全。我们认为,可见的工具集是一个**安全控制面**:暴露了不必要的高风险工具会扩大攻击面,并可能通过提示注入被滥用。与基于相关性的工具检索(询问*哪些工具有用*)不同,我们将工具可见性视为**临时权限**,并询问在当前状态下暴露哪些工具是安全且授权的。我们提出*风险感知因果门控*(RACG),一种无需训练的方法,将最小权限原则应用于智能体的工具暴露。RACG并不是要取代因果工具过滤;它提供了因果过滤所缺失的安全维度:一个工具可能因果上有用,但在状态包含**可信**授权证据之前暴露并不安全。基于前置条件-效果工具契约,RACG仅当高风险工具(i)位于通往目标的最小因果路径上,且(ii)由当前状态中满足的授权前置条件门控时,才将其暴露。我们形式化了攻击面指标,描述了在风险惩罚参数λ上的安全-成功帕累托前沿,并将RACG评估为针对间接提示注入的结构性防御。在一个具有强制工具可见性和可信授权来源的受控基准测试中,RACG消除了未授权的高风险暴露和针对性的注入诱导高风险调用,同时保持了在需要授权的任务上的完成率。使用七个托管LLM(Claude Opus 4、Sonnet 4.6和Haiku 4.5;GPT-OSS 120B;以及Nova Premier、Nova Pro和Nova 2 Lite)进行的验证复现了这一模式,并且我们展示了该保证恰好取决于授权来源:当注入可以伪造授权变量时,防御失效,从而精确地划定了该方法成立的边界。
## I. 引言
工具访问使大语言模型(LLM)智能体能够超越文本生成,在现实世界中行动:它们调用API、编辑文件、发送邮件、更新日历、转移资金并操作结构化系统[21 (https://arxiv.org/html/2606.13884#bib.bib1),19 (https://arxiv.org/html/2606.13884#bib.bib2),15 (https://arxiv.org/html/2606.13884#bib.bib3)]。随着智能体连接更多工具,两个不同的问题随之而来。第一个是*能力*:模型能否选择正确的工具并使用有效参数进行调用[14 (https://arxiv.org/html/2606.13884#bib.bib6),9 (https://arxiv.org/html/2606.13884#bib.bib4)]?第二个,我们在此研究的是*暴露*:在每个决策步骤中,哪些工具对智能体*可见*,以及风险如何?大多数先前的工具选择工作通过相关性或效率来回答暴露问题。检索和剪枝方法突出显示名称、描述或模式与请求匹配的工具[20 (https://arxiv.org/html/2606.13884#bib.bib7),6 (https://arxiv.org/html/2606.13884#bib.bib8),10 (https://arxiv.org/html/2606.13884#bib.bib10)],最近的工作研究了候选列表大小如何权衡选择难度与覆盖范围[16 (https://arxiv.org/html/2606.13884#bib.bib9)]。因果最小工具过滤(CMTF)进一步推进了这一点,仅暴露因果上*必要*以推动当前状态向目标前进的工具[3 (https://arxiv.org/html/2606.13884#bib.bib13)]。这些方法提高了可靠性和成本效率,但它们将所有工具视为同等安全:一个只读的`search`工具和一个不可逆的`delete_file`或`transfer_funds`工具采用相同的标准进行过滤。我们认为这是一个安全缺口。在安全领域,最小权限原则指出,一个组件应仅持有其当前任务所需的权限[18 (https://arxiv.org/html/2606.13884#bib.bib16)];授权过度是经典的*混淆代理*问题的根源,即一个本应正确的组件被欺骗滥用其本不应持有的能力[8 (https://arxiv.org/html/2606.13884#bib.bib17)]。LLM智能体天生就是混淆代理:它们根据自然语言指令行动,这些指令可能来自对抗性、歧义性或通过间接提示注入被污染[7 (https://arxiv.org/html/2606.13884#bib.bib18)]。当一个高风险工具仅是*可见*时,一个注入的指令、一个幻觉计划或单一错误步骤便可调用它。作为一个具体例子,一个仅需*总结*消息的邮件智能体不需要在其动作空间中拥有`send_email`、`forward_email`或`delete_email`;如果这些工具在智能体读取攻击者控制的邮件正文时可见,则整个提示注入防御负担就转移到模型拒绝的意愿上。而RACG则在达到因果必要且授权的状态之前隐藏这些工具,从而使危险调用从一开始就不可尝试。因此,可见工具集不仅仅是一个效率旋钮——它是一个攻击面控制。在本文中,我们将能力最小化作为智能体的一个头等*安全原语*。我们提出*风险感知因果门控*(RACG),一种无需训练的方法,将前置条件-效果工具契约扩展为显式的风险等级和授权前置条件。RACG仅当高风险工具同时(i)位于从当前状态到目标的最小因果路径上,且(ii)由当前状态中存在的授权变量门控时才将其暴露。只读和低风险工具照常由因果充分性暴露;危险工具必须在进入智能体动作空间之前*因果上合理且已授权*。我们明确了这种层级关系:RACG并不取代因果最小工具过滤(CMTF),而是对其进行扩展。CMTF建立了可靠暴露的因果必要性;RACG添加了缺失的安全维度——一个工具可能因果上有用,但在状态包含可信授权证据之前暴露并不安全——通过风险标签、授权门控和来源约束,将因果最小性转变为*最小权限*最小性。
本文做出四项贡献。
首先,我们将工具菜单暴露形式化为智能体的*安全表面*:可见工具构成临时权限,不必要的高风险工具创造了可被利用的常驻能力。
其次,我们引入RACG,一种无需训练的最小权限暴露层,它结合因果工具契约与风险标签、授权前置条件和可信来源约束,以及一个风险惩罚参数λ,该参数描绘出一条安全-成功帕累托前沿。
第三,我们定义了工具暴露的安全指标——高风险和风险加权攻击面、未授权暴露、过早高风险动作率以及在门控动作空间下的注入成功率——以及一个界定保证范围的显式威胁模型。
第四,我们在RiskGate上评估RACG,与所有工具、相关性检索、状态感知和因果过滤进行比较,表明在强制工具可见性和可信授权来源下,RACG消除了未授权的高风险暴露和针对性的注入高风险调用,同时保持了在需要授权任务上的完成率,并且我们确定了保证成立或失效的精确来源条件。
## II. 背景与相关工作
### II-A 工具增强型LLM智能体与暴露
交错推理与行动[21 (https://arxiv.org/html/2606.13884#bib.bib1)]、自学API使用[19 (https://arxiv.org/html/2606.13884#bib.bib2)]以及大型API生态系统[15 (https://arxiv.org/html/2606.13884#bib.bib3)]确立了工具使用作为核心智能体能力,基准测试衡量模型是否正确调用工具[9 (https://arxiv.org/html/2606.13884#bib.bib4),14 (https://arxiv.org/html/2606.13884#bib.bib6),11 (https://arxiv.org/html/2606.13884#bib.bib5)]。这些假设一个固定接口;暴露哪些工具的上游问题主要通过检索和剪枝研究[20 (https://arxiv.org/html/2606.13884#bib.bib7),6 (https://arxiv.org/html/2606.13884#bib.bib8),10 (https://arxiv.org/html/2606.13884#bib.bib10),16 (https://arxiv.org/html/2606.13884#bib.bib9)]。CMTF将暴露重新定义为因果充分性,仅暴露下一个因果前沿[3 (https://arxiv.org/html/2606.13884#bib.bib13)]。我们直接建立在此基于契约的观点上,但添加了先前暴露工作遗漏的安全维度:所暴露工具的*风险*。
### II-B 最小权限与混淆代理
最小权限原则[18 (https://arxiv.org/html/2606.13884#bib.bib16)]和混淆代理分析[8 (https://arxiv.org/html/2606.13884#bib.bib17)]是安全系统设计的基础:权限应最小、即时且显式授予。我们将这些思想移植到智能体工具暴露中,将可见工具集视为智能体的常驻权限,并认为高风险权限应仅在因果和授权需求时才授予。
### II-C 智能体安全与提示注入
LLM集成应用容易受到间接提示注入的影响,其中检索数据中的对抗性内容引导智能体执行非预期操作[7 (https://arxiv.org/html/2606.13884#bib.bib18)]。沙盒和基准测试如ToolEmu[17 (https://arxiv.org/html/2606.13884#bib.bib20)]、R-Judge[22 (https://arxiv.org/html/2606.13884#bib.bib21)]和AgentDojo[4 (https://arxiv.org/html/2606.13884#bib.bib19)]揭示了此类风险并加以衡量,而在实际环境中安全测试智能体已作为操作问题进行研究[13 (https://arxiv.org/html/2606.13884#bib.bib22)]。大多数防御作用于指令或输出层(检测、净化、验证)或事后恢复[1 (https://arxiv.org/html/2606.13884#bib.bib14)]。将RACG与护栏和策略执行系统进行比较的有效方式是:护栏决定一个*尝试的*动作是否被允许;RACG决定该动作是否*可供尝试*。因此RACG是补充性的且是*结构性的*:它通过将危险工具从动作空间中隐藏(直到它们因果合理且已授权)来减少攻击的*手段*,而不是在模型已选择调用后裁决调用。
表 I:RACG相对于先前工具处理工作的定位。每个工作线优化不同的目标;RACG添加了其他工作忽略的权限/风险维度。
### II-D 前置条件、效果与契约推断
RACG继承了经典规划[5 (https://arxiv.org/html/2606.13884#bib.bib11),12 (https://arxiv.org/html/2606.13884#bib.bib12)]和基于契约的工具过滤[3 (https://arxiv.org/html/2606.13884#bib.bib13)]中的前置条件-效果抽象。由于门控质量取决于契约质量,自动契约推断[2 (https://arxiv.org/html/2606.13884#bib.bib15)]既是一个推动因素,也是一个威胁向量,我们在第IX节 (https://arxiv.org/html/2606.13884#S9)中进行分析。
## III. 问题形式化
我们将CMTF[3 (https://arxiv.org/html/2606.13884#bib.bib13)]的多步工具选择设置扩展为包含显式的风险和授权。
### III-A 工具、风险与授权
令 T = {t₁, …, tₙ} 为工具库。每个工具是一个契约 tᵢ = (dᵢ, Rᵢ, Eᵢ, cᵢ, ρᵢ, αᵢ),其中 dᵢ 是描述,Rᵢ 是所需状态变量(前置条件),Eᵢ 是产生的变量(效果),cᵢ 是可选的代价,ρᵢ ∈ {low, med, high} 是风险等级,αᵢ ⊆ X 是(可能为空)*授权变量*集合,必须在状态中存在后,才能暴露一个承载风险的工具。只读工具具有 ρᵢ = low 且 αᵢ = ∅;不可逆或外部可见动作(发送、删除、共享、支付、更新)具有 ρᵢ ∈ {med, high} 且非空 αᵢ。
*术语说明*:全文我们将 ρᵢ ∈ {med, high}(即 ρᵢ ≠ low)的工具称为*承载风险*的工具,并将 ρᵢ = high 专门称为*高风险*;下面的门控和暴露指标关键取决于承载风险谓词,而不可逆动作(发送、删除、支付)的例子属于高风险。
令 X 为状态变量的全集;在步骤 t,状态为 sₜ ⊆ X,目标为 g ⊆ X,当 g ⊆ sₜ 时完成。一个过滤器选择可见集 Vₜ ⊆ T;智能体选择 aₜ ∈ Vₜ,状态更新为 sₜ₊₁ = sₜ ∪ Eₐₜ。
### III-B 带授权的因果充分性
与CMTF类似,当 Rᵢ ⊆ sₜ 时工具是*可执行的*,当它位于通往目标的有效依赖路径上时是*因果充分的*。我们添加一个*授权*条件:一个承载风险的工具(ρᵢ ≠ low)在 sₜ 处是*可许可的*,仅当:
Rᵢ ⊆ sₜ 且 αᵢ ⊆ sₜ。
因此,一个承载风险的工具可能是相关的、可执行的,甚至因果上有用,但在其授权变量被建立之前(例如,已确认的收件人、显式的用户批准令牌或已验证的目标标识符)仍不可许可。
### III-C 授权来源
上述可许可条件仅与授权变量 αᵢ 的*来源*同样可信。因此,我们将来源作为形式化的一等部分,而非事后考虑。我们将状态全集 X 划分为*可信*事实 X_T 和*不可信*事实 X_U,并将工具划分为*可信生产者*(用户确认步骤、验证工具和系统控制的检查)和*内容生产者*(其效果将外部检索的、攻击者可影响的内容复制或总结到状态中的工具)。我们施加*来源约束*:每个授权变量必须是可信事实,⋃ᵢ αᵢ ⊆ X_T,并且可信事实可能*仅*由可信生产者产生。等价地,任何内容生产者在其效果集 Eᵢ 中不得含有任何 α 变量。在此约束下,攻击者控制的内容——只能通过内容生产者流入 X_U——永远不能设置授权变量,因此永远不能打开门控。这是注入保证(H5)所依赖的精确性质:如果违反等式 (3),例如允许检索到的邮件正文设置 `recipient_confirmed`,则注入可以伪造授权且结构性防御失效。在RiskGate中,表III (https://arxiv.org/html/2606.13884#S5.T3) 的建立工具(`read_email`、`confirm_recipient`、`verify_external_party`、`confirm_payment`)是可信生产者,其授权效果来自验证的元数据或显式用户操作,而非自由文本内容;我们将违规情况(伪造授权注入)编码并测试作为H5 (第VI-A节 (https://arxiv.org/html/2606.13884#S6.SS1)) 的边界条件。
### III-D 攻击面与目标
我们定义每步的...相似文章
部分可观测下安全关键控制的动作条件风险门控
本文提出了动作条件风险门控(Action-Conditioned Risk Gating),一种用于部分可观测下风险敏感控制的轻量级强化学习方法,该方法利用紧凑的有限历史代理状态和基于动作条件的近期风险预测器来平衡安全性和性能。
Minim:通过可信本地清理实现代理的隐私感知最小化视图
本文介绍了 Minim,一个可信的本地代理,它通过上下文完整性来平衡任务必要性和敏感度得分,为基于LLM的代理执行UI观察的隐私感知最小化。在WebArena上的实验表明,它在保留任务关键信息的同时,减少了不相关的敏感信息泄露。
修剪不安全票:一种资源高效的框架,用于更安全、更鲁棒的大型语言模型
本文介绍了一种资源高效的修剪框架,该框架能够识别并移除大型语言模型中与不安全行为相关的参数,同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角,在最小化性能损失的前提下,显著减少了不安全内容的生成,并增强了对越狱攻击的鲁棒性。
SafeHarbor:面向LLM代理安全的分层记忆增强护栏
SafeHarbor是一个用于LLM代理安全的新型框架,它利用分层记忆和自进化机制来平衡安全性与实用性,在良性任务和恶意任务上均实现了最先进的性能。
PropGuard:通过传播感知的探索与修复保障LLM-MAS安全
PropGuard是一种传播感知框架,用于保护基于LLM的多智能体系统(LLM-MAS)免受跨智能体和轮次传播的恶意指令的影响。它构建了一个双视角时空图,并使用经过GE-GRPO训练的检查器来检测和修复可疑的传播子图。