能力最小化作为一种安全原语：面向最小权限LLM代理的风险感知因果门控

arXiv cs.AI 2026/06/15 04:00 论文

llm-agents safety least-privilege tool-augmented prompt-injection authorization causal-gating

摘要

本文提出风险感知因果门控（RACG），这是一种无需训练的机制，将最小权限原则应用于LLM代理的工具暴露，仅在授权和因果必要时暴露高风险工具，从而减少提示注入的攻击面。

arXiv:2606.13884v1 Announce Type: new 摘要：现代决策系统越来越依赖学习组件，这些组件的输出可能自信但错误，导致下游行动面临昂贵的错误。我们引入了风险感知因果门控（RACG），这是一个结合因果效应估计与校准风险控制的框架，用于决定是否基于模型预测采取行动、推迟或放弃。RACG建模从候选行动到结果的因果路径，并根据估计的反事实风险（而非原始预测置信度）对每个决策进行门控。为了使门控可靠，我们推导了在高风险条件下行动概率的无分布边界，并展示了这些边界如何转化为满足用户指定安全约束的操作阈值。我们进一步提出了一种自适应门控策略，通过监测预测结果与实际结果之间的差异来适应分布变化，在因果假设似乎被违反时收紧门控。在模拟干预和实际决策基准测试中，RACG大幅减少了高成本错误，同时保留了非门控策略的大部分效用，并在匹配的弃权率下优于基于置信度和选择性预测的基线。我们的结果表明，明确分离因果风险与预测不确定性可以产生更安全、更透明的决策系统，为高风险环境中的可信自动化提供了一种原则性机制。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:10

# 能力最小化作为安全原语：面向最小权限LLM智能体的风险感知因果门控 来源：https://arxiv.org/html/2606.13884

###### 摘要

工具增强型大语言模型（LLM）智能体正被授予越来越多的高后果操作权限——发送消息、转账、删除记录——然而，大多数工具选择方法将每种工具视为同等安全。我们认为，可见的工具集是一个**安全控制面**：暴露了不必要的高风险工具会扩大攻击面，并可能通过提示注入被滥用。与基于相关性的工具检索（询问*哪些工具有用*）不同，我们将工具可见性视为**临时权限**，并询问在当前状态下暴露哪些工具是安全且授权的。我们提出*风险感知因果门控*（RACG），一种无需训练的方法，将最小权限原则应用于智能体的工具暴露。RACG并不是要取代因果工具过滤；它提供了因果过滤所缺失的安全维度：一个工具可能因果上有用，但在状态包含**可信**授权证据之前暴露并不安全。基于前置条件-效果工具契约，RACG仅当高风险工具(i)位于通往目标的最小因果路径上，且(ii)由当前状态中满足的授权前置条件门控时，才将其暴露。我们形式化了攻击面指标，描述了在风险惩罚参数λ上的安全-成功帕累托前沿，并将RACG评估为针对间接提示注入的结构性防御。在一个具有强制工具可见性和可信授权来源的受控基准测试中，RACG消除了未授权的高风险暴露和针对性的注入诱导高风险调用，同时保持了在需要授权的任务上的完成率。使用七个托管LLM（Claude Opus 4、Sonnet 4.6和Haiku 4.5；GPT-OSS 120B；以及Nova Premier、Nova Pro和Nova 2 Lite）进行的验证复现了这一模式，并且我们展示了该保证恰好取决于授权来源：当注入可以伪造授权变量时，防御失效，从而精确地划定了该方法成立的边界。

## I. 引言

工具访问使大语言模型（LLM）智能体能够超越文本生成，在现实世界中行动：它们调用API、编辑文件、发送邮件、更新日历、转移资金并操作结构化系统[21 (https://arxiv.org/html/2606.13884#bib.bib1),19 (https://arxiv.org/html/2606.13884#bib.bib2),15 (https://arxiv.org/html/2606.13884#bib.bib3)]。随着智能体连接更多工具，两个不同的问题随之而来。第一个是*能力*：模型能否选择正确的工具并使用有效参数进行调用[14 (https://arxiv.org/html/2606.13884#bib.bib6),9 (https://arxiv.org/html/2606.13884#bib.bib4)]？第二个，我们在此研究的是*暴露*：在每个决策步骤中，哪些工具对智能体*可见*，以及风险如何？大多数先前的工具选择工作通过相关性或效率来回答暴露问题。检索和剪枝方法突出显示名称、描述或模式与请求匹配的工具[20 (https://arxiv.org/html/2606.13884#bib.bib7),6 (https://arxiv.org/html/2606.13884#bib.bib8),10 (https://arxiv.org/html/2606.13884#bib.bib10)]，最近的工作研究了候选列表大小如何权衡选择难度与覆盖范围[16 (https://arxiv.org/html/2606.13884#bib.bib9)]。因果最小工具过滤（CMTF）进一步推进了这一点，仅暴露因果上*必要*以推动当前状态向目标前进的工具[3 (https://arxiv.org/html/2606.13884#bib.bib13)]。这些方法提高了可靠性和成本效率，但它们将所有工具视为同等安全：一个只读的`search`工具和一个不可逆的`delete_file`或`transfer_funds`工具采用相同的标准进行过滤。我们认为这是一个安全缺口。在安全领域，最小权限原则指出，一个组件应仅持有其当前任务所需的权限[18 (https://arxiv.org/html/2606.13884#bib.bib16)]；授权过度是经典的*混淆代理*问题的根源，即一个本应正确的组件被欺骗滥用其本不应持有的能力[8 (https://arxiv.org/html/2606.13884#bib.bib17)]。LLM智能体天生就是混淆代理：它们根据自然语言指令行动，这些指令可能来自对抗性、歧义性或通过间接提示注入被污染[7 (https://arxiv.org/html/2606.13884#bib.bib18)]。当一个高风险工具仅是*可见*时，一个注入的指令、一个幻觉计划或单一错误步骤便可调用它。作为一个具体例子，一个仅需*总结*消息的邮件智能体不需要在其动作空间中拥有`send_email`、`forward_email`或`delete_email`；如果这些工具在智能体读取攻击者控制的邮件正文时可见，则整个提示注入防御负担就转移到模型拒绝的意愿上。而RACG则在达到因果必要且授权的状态之前隐藏这些工具，从而使危险调用从一开始就不可尝试。因此，可见工具集不仅仅是一个效率旋钮——它是一个攻击面控制。在本文中，我们将能力最小化作为智能体的一个头等*安全原语*。我们提出*风险感知因果门控*（RACG），一种无需训练的方法，将前置条件-效果工具契约扩展为显式的风险等级和授权前置条件。RACG仅当高风险工具同时(i)位于从当前状态到目标的最小因果路径上，且(ii)由当前状态中存在的授权变量门控时才将其暴露。只读和低风险工具照常由因果充分性暴露；危险工具必须在进入智能体动作空间之前*因果上合理且已授权*。我们明确了这种层级关系：RACG并不取代因果最小工具过滤（CMTF），而是对其进行扩展。CMTF建立了可靠暴露的因果必要性；RACG添加了缺失的安全维度——一个工具可能因果上有用，但在状态包含可信授权证据之前暴露并不安全——通过风险标签、授权门控和来源约束，将因果最小性转变为*最小权限*最小性。

本文做出四项贡献。

首先，我们将工具菜单暴露形式化为智能体的*安全表面*：可见工具构成临时权限，不必要的高风险工具创造了可被利用的常驻能力。

其次，我们引入RACG，一种无需训练的最小权限暴露层，它结合因果工具契约与风险标签、授权前置条件和可信来源约束，以及一个风险惩罚参数λ，该参数描绘出一条安全-成功帕累托前沿。

第三，我们定义了工具暴露的安全指标——高风险和风险加权攻击面、未授权暴露、过早高风险动作率以及在门控动作空间下的注入成功率——以及一个界定保证范围的显式威胁模型。

第四，我们在RiskGate上评估RACG，与所有工具、相关性检索、状态感知和因果过滤进行比较，表明在强制工具可见性和可信授权来源下，RACG消除了未授权的高风险暴露和针对性的注入高风险调用，同时保持了在需要授权任务上的完成率，并且我们确定了保证成立或失效的精确来源条件。

## II. 背景与相关工作

### II-A 工具增强型LLM智能体与暴露

交错推理与行动[21 (https://arxiv.org/html/2606.13884#bib.bib1)]、自学API使用[19 (https://arxiv.org/html/2606.13884#bib.bib2)]以及大型API生态系统[15 (https://arxiv.org/html/2606.13884#bib.bib3)]确立了工具使用作为核心智能体能力，基准测试衡量模型是否正确调用工具[9 (https://arxiv.org/html/2606.13884#bib.bib4),14 (https://arxiv.org/html/2606.13884#bib.bib6),11 (https://arxiv.org/html/2606.13884#bib.bib5)]。这些假设一个固定接口；暴露哪些工具的上游问题主要通过检索和剪枝研究[20 (https://arxiv.org/html/2606.13884#bib.bib7),6 (https://arxiv.org/html/2606.13884#bib.bib8),10 (https://arxiv.org/html/2606.13884#bib.bib10),16 (https://arxiv.org/html/2606.13884#bib.bib9)]。CMTF将暴露重新定义为因果充分性，仅暴露下一个因果前沿[3 (https://arxiv.org/html/2606.13884#bib.bib13)]。我们直接建立在此基于契约的观点上，但添加了先前暴露工作遗漏的安全维度：所暴露工具的*风险*。

### II-B 最小权限与混淆代理

最小权限原则[18 (https://arxiv.org/html/2606.13884#bib.bib16)]和混淆代理分析[8 (https://arxiv.org/html/2606.13884#bib.bib17)]是安全系统设计的基础：权限应最小、即时且显式授予。我们将这些思想移植到智能体工具暴露中，将可见工具集视为智能体的常驻权限，并认为高风险权限应仅在因果和授权需求时才授予。

### II-C 智能体安全与提示注入

LLM集成应用容易受到间接提示注入的影响，其中检索数据中的对抗性内容引导智能体执行非预期操作[7 (https://arxiv.org/html/2606.13884#bib.bib18)]。沙盒和基准测试如ToolEmu[17 (https://arxiv.org/html/2606.13884#bib.bib20)]、R-Judge[22 (https://arxiv.org/html/2606.13884#bib.bib21)]和AgentDojo[4 (https://arxiv.org/html/2606.13884#bib.bib19)]揭示了此类风险并加以衡量，而在实际环境中安全测试智能体已作为操作问题进行研究[13 (https://arxiv.org/html/2606.13884#bib.bib22)]。大多数防御作用于指令或输出层（检测、净化、验证）或事后恢复[1 (https://arxiv.org/html/2606.13884#bib.bib14)]。将RACG与护栏和策略执行系统进行比较的有效方式是：护栏决定一个*尝试的*动作是否被允许；RACG决定该动作是否*可供尝试*。因此RACG是补充性的且是*结构性的*：它通过将危险工具从动作空间中隐藏（直到它们因果合理且已授权）来减少攻击的*手段*，而不是在模型已选择调用后裁决调用。

表 I：RACG相对于先前工具处理工作的定位。每个工作线优化不同的目标；RACG添加了其他工作忽略的权限/风险维度。

### II-D 前置条件、效果与契约推断

RACG继承了经典规划[5 (https://arxiv.org/html/2606.13884#bib.bib11),12 (https://arxiv.org/html/2606.13884#bib.bib12)]和基于契约的工具过滤[3 (https://arxiv.org/html/2606.13884#bib.bib13)]中的前置条件-效果抽象。由于门控质量取决于契约质量，自动契约推断[2 (https://arxiv.org/html/2606.13884#bib.bib15)]既是一个推动因素，也是一个威胁向量，我们在第IX节 (https://arxiv.org/html/2606.13884#S9)中进行分析。

## III. 问题形式化

我们将CMTF[3 (https://arxiv.org/html/2606.13884#bib.bib13)]的多步工具选择设置扩展为包含显式的风险和授权。

### III-A 工具、风险与授权

令 T = {t₁, …, tₙ} 为工具库。每个工具是一个契约 tᵢ = (dᵢ, Rᵢ, Eᵢ, cᵢ, ρᵢ, αᵢ)，其中 dᵢ 是描述，Rᵢ 是所需状态变量（前置条件），Eᵢ 是产生的变量（效果），cᵢ 是可选的代价，ρᵢ ∈ {low, med, high} 是风险等级，αᵢ ⊆ X 是（可能为空）*授权变量*集合，必须在状态中存在后，才能暴露一个承载风险的工具。只读工具具有 ρᵢ = low 且 αᵢ = ∅；不可逆或外部可见动作（发送、删除、共享、支付、更新）具有 ρᵢ ∈ {med, high} 且非空 αᵢ。

*术语说明*：全文我们将 ρᵢ ∈ {med, high}（即 ρᵢ ≠ low）的工具称为*承载风险*的工具，并将 ρᵢ = high 专门称为*高风险*；下面的门控和暴露指标关键取决于承载风险谓词，而不可逆动作（发送、删除、支付）的例子属于高风险。

令 X 为状态变量的全集；在步骤 t，状态为 sₜ ⊆ X，目标为 g ⊆ X，当 g ⊆ sₜ 时完成。一个过滤器选择可见集 Vₜ ⊆ T；智能体选择 aₜ ∈ Vₜ，状态更新为 sₜ₊₁ = sₜ ∪ Eₐₜ。

### III-B 带授权的因果充分性

与CMTF类似，当 Rᵢ ⊆ sₜ 时工具是*可执行的*，当它位于通往目标的有效依赖路径上时是*因果充分的*。我们添加一个*授权*条件：一个承载风险的工具（ρᵢ ≠ low）在 sₜ 处是*可许可的*，仅当：
Rᵢ ⊆ sₜ 且 αᵢ ⊆ sₜ。
因此，一个承载风险的工具可能是相关的、可执行的，甚至因果上有用，但在其授权变量被建立之前（例如，已确认的收件人、显式的用户批准令牌或已验证的目标标识符）仍不可许可。

### III-C 授权来源

上述可许可条件仅与授权变量 αᵢ 的*来源*同样可信。因此，我们将来源作为形式化的一等部分，而非事后考虑。我们将状态全集 X 划分为*可信*事实 X_T 和*不可信*事实 X_U，并将工具划分为*可信生产者*（用户确认步骤、验证工具和系统控制的检查）和*内容生产者*（其效果将外部检索的、攻击者可影响的内容复制或总结到状态中的工具）。我们施加*来源约束*：每个授权变量必须是可信事实，⋃ᵢ αᵢ ⊆ X_T，并且可信事实可能*仅*由可信生产者产生。等价地，任何内容生产者在其效果集 Eᵢ 中不得含有任何 α 变量。在此约束下，攻击者控制的内容——只能通过内容生产者流入 X_U——永远不能设置授权变量，因此永远不能打开门控。这是注入保证（H5）所依赖的精确性质：如果违反等式 (3)，例如允许检索到的邮件正文设置 `recipient_confirmed`，则注入可以伪造授权且结构性防御失效。在RiskGate中，表III (https://arxiv.org/html/2606.13884#S5.T3) 的建立工具（`read_email`、`confirm_recipient`、`verify_external_party`、`confirm_payment`）是可信生产者，其授权效果来自验证的元数据或显式用户操作，而非自由文本内容；我们将违规情况（伪造授权注入）编码并测试作为H5 (第VI-A节 (https://arxiv.org/html/2606.13884#S6.SS1)) 的边界条件。

### III-D 攻击面与目标

我们定义每步的...

能力最小化作为一种安全原语：面向最小权限LLM代理的风险感知因果门控

相似文章

部分可观测下安全关键控制的动作条件风险门控

Minim：通过可信本地清理实现代理的隐私感知最小化视图

修剪不安全票：一种资源高效的框架，用于更安全、更鲁棒的大型语言模型

SafeHarbor：面向LLM代理安全的分层记忆增强护栏

PropGuard：通过传播感知的探索与修复保障LLM-MAS安全

提交意见反馈