多智能体人工智能系统中的授权传播:将身份治理作为基础设施

arXiv cs.AI 论文

摘要

本文引入了“授权传播”这一多智能体人工智能系统中独特的安全挑战,并提出必须将身份治理视为基础设施,以在自主智能体交互中维持授权不变量。

arXiv:2605.05440v1 公告类型:新提交 摘要:围绕智能体人工智能的安全讨论主要集中在提示注入上。本文认为,多智能体系统还产生了一个独特的授权问题:随着非人类主体在不断变化的边界中检索数据、委派任务并综合结果,如何维持授权不变量。我们将此问题称为授权传播。它不能简化为提示注入,也不能完全由基于角色的访问控制(RBAC)、基于属性的访问控制(ABAC)或基于关系的访问控制(ReBAC)等经典访问控制模型来解决。本文将授权传播形式化为工作流级别的属性,识别出三个子问题(传递性委派、聚合推理和时间有效性),并推导出多智能体人工智能系统中授权架构的七个结构要求。最近关于调用绑定能力令牌、任务范围授权信封、依赖图策略执行和执行计数撤销的工作表明,该领域正在向这个问题汇聚,但尚未形成完整的架构。核心观点是,身份治理必须被视为基础设施:持续评估,在每个交互边界强制执行,并在编排逻辑被允许扩展之前设计到系统中。来自生产级企业人工智能平台的初步实施证据表明,普通系统行为,而不仅仅是对抗性行动,已经产生了该模型预测的故障。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:17

# 多智能体 AI 系统中的授权传播:将身份治理作为基础设施
来源:https://arxiv.org/html/2605.05440
\(2026年5月\)

###### 摘要

围绕智能体 AI(Agentic AI)的安全讨论主要集中在提示注入(prompt injection)上。本文认为,多智能体系统还引发了一个独特的授权问题:在跨变化边界的非人类主体检索数据、委托任务并综合结果时,如何维持授权不变性。我们将此问题称为**授权传播**(authorization propagation)。该问题不能简化为提示注入,且传统的访问控制模型(如 RBAC、ABAC 或 ReBAC)也无法完全解决。本文将授权传播形式化为工作流级别的属性,识别了三个子问题(传递性委托、聚合推理和时间有效性),并推导出了多智能体 AI 系统授权架构的七个结构性需求。近期关于调用绑定能力令牌(Prakash, 2026)、任务范围授权信封(Sharma et al., 2026)、依赖图策略执行(Palumbo et al., 2026)和执行计数撤销(Parakhin, 2026)的工作表明,该领域正汇聚于这一问题,但尚未形成完整的架构。核心观点是:身份治理必须被视为基础设施:需持续评估,在每个交互边界强制执行,并在编排逻辑扩展前融入系统设计。来自生产级企业 AI 平台的初步实施证据表明,不仅是敌对行为,普通的系统行为已经产生了该模型所预测的故障。

关键词:智能体 AI,授权,访问控制,委托,聚合推理,身份治理

## 1 引言

随着 AI 系统从单模型推理演变为多智能体编排,安全讨论主要集中在提示注入上。这是可以理解的。提示注入是 adversaries 通过操纵代理处理的内容来颠覆代理行为的机制。它被广泛记录,具有广泛的适用性,并且——截至本文撰写时——在模型层面尚未得到完全解决。

由此产生的行业态势将提示注入视为智能体 AI 中核心、有时甚至是唯一的新颖安全问题。一个常见论点(非正式表达但被广泛接受)大致如下:提示注入之于智能体 AI,犹如 SQL 注入之于 Web 应用程序。从架构上修复它——将数据与指令分离,就像参数化查询将数据与 SQL 分离一样——剩余的安全问题就归结为已知的原语:认证、授权、网络隔离、密钥管理。没有什么新颖之处。

本文认为,这一类比部分正确,但实质上不完整。提示注入是新颖的**攻击向量**。但即使假设提示注入已完全解决,仍然存在一个独特新颖的**架构问题**:非人类主体在进行自主决策链时,如何维持授权不变性的问题。

我们将此问题称为**授权传播**。

考虑一个具体场景。编排智能体接收用户查询。它分解任务并将子任务委托给专门智能体。智能体 A 从数据集 X 检索数据。智能体 B 从数据集 Y 检索数据。智能体 C 将 A 和 B 的结果综合为用户的响应。即使具备完美的提示注入防御——没有智能体能被其处理的内容欺骗——系统仍需回答:

- • 智能体 A 有权访问数据集 X 吗?
- • 智能体 B 有权访问数据集 Y 吗?
- • 智能体 C 有权查看综合结果吗?
- • 用户有权查看综合输出吗?
- • X 和 Y 的**组合**是否揭示了单独数据集中不会暴露的信息?

这些是授权问题,而非提示注入问题。它们源于系统的结构,而非敌对内容。而且它们没有“参数化查询”这样的既定等价物——没有单一的架构原语能解决它们。

现在这一问题之所以重要,是因为企业智能体不再仅仅代表可见的人类操作员检索文档。它们越来越多地中介整个证据路径:分解、检索、工具调用、综合和交付。在这种环境下,授权不再仅仅是个人访问是否被允许的问题。它关乎完整的委托工作流是否保留了使最终结果可治理的权限、范围和边界条件。

本文形式化了授权传播,将其与提示注入区分开来,并识别出它对授权架构的要求。

## 2 背景与相关工作

### 2.1 提示注入与智能体安全

提示注入于 2022 年首次被表征为一种独特的漏洞类别(Gruskovnjak, 2023),此后成为广泛研究的主题(Greshake et al., 2023)。Google DeepMind 的“AI 智能体陷阱”分类法(Google DeepMind, 2026)确定了六类针对智能体的攻击:内容注入、语义操纵、认知状态攻击、工具误用诱导、目标劫持和多智能体共谋。这些类别很有用,但共享一个共同结构: adversary 通过操纵智能体处理的内容、上下文或记忆来改变其行为。

相应的防御文献集中在内容级别的缓解措施上:输入过滤、输出验证、可信/不可信内容分离以及指令层次结构执行。

然而,这些文献并未深入探讨决定智能体最初可访问哪些数据和动作的授权架构。隐含的假设是,如果能使智能体对敌对内容具有鲁棒性,剩余的安全属性可以通过传统访问控制来处理。

最近的实证工作挑战了这一假设。Anonymous (2026) 评估了 Claude Code 权限系统,发现在故意模糊的授权场景下误报率为 81.0%,其中 36.8% 的状态更改操作通过文件编辑完全绕过了分类器。Debenedetti 等人 (2026) 证明提示注入可以重构为角色混淆,通过伪造推理在 StrongREJECT 上取得了 60% 的攻击成功率——论证称“安全性在接口上定义,但权限在潜在空间中分配。”这些结果表明,即使是资源丰富的内容级防御也不足够,加强了对架构级授权执行的需求。

### 2.2 经典访问控制模型

访问控制文献提供了基础模型,这些模型提供了信息但并未完全解决授权传播问题。Bell 和 LaPadula (1973) 通过星属性(无写入降级)和简单安全属性(无读取升级)形式化了强制访问控制,防止信息从高分类流向低分类主体。Biba (1977) 提供了对偶完整性模型:无读取降级,无写入升级。Clark 和 Wilson (1987) 将重点转向良好形成的事务和职责分离,要求数据修改通过认证的转换程序。

Sandhu 等人 (1996) 形式化了基于角色的访问控制(RBAC),将权限分配给角色而非直接分配给主体。XACML (OASIS, 2013) 通过义务策略扩展了基于属性的访问控制——即在访问拒绝或授予时必须执行的操作。

这些模型解决了重要的属性:机密性(Bell-LaPadula)、完整性(Biba)、事务正确性(Clark-Wilson)、管理可扩展性(RBAC)和策略表达力(XACML)。当代风险框架(National Institute of Standards and Technology, 2023; International Organization for Standardization, 2023)承认 AI 系统引入了新的授权挑战,但将具体细节委托给尚不存在于多智能体架构中的实施标准。经典模型共享的假设在多智能体 AI 系统中并不成立:人类主体、静态资源、同步访问决策和明确定义的信任边界。授权传播问题正是在这些假设失效的地方产生的。

### 2.3 基于关系的访问控制

基于关系的访问控制(ReBAC)起源于 Google 的 Zanzibar 系统(Pang et al., 2019),该系统将授权建模为主体和对象之间类型化关系的图。主体的权限不由静态角色分配(如 RBAC 中)或属性谓词(如 ABAC 中)决定,而是由元组存储中关系的存在和类型决定。这使得能够表达所有权、委托、组成员资格和组织层级的细粒度、上下文敏感的授权成为可能。

ReBAC 已在几个开放系统中实现(SpiceDB, OpenFGA, Authzed),非常适合访问模式是关系型而非基于角色的多租户企业环境。

然而,Zanzibar 模型及其后代是为通过明确定义的 API 表面与静态资源交互的人类主体设计的。它们并未原生解决:

- • 自主链接授权决策的非人类主体
- • 一个智能体代表另一个智能体行动的传递性委托
- • 综合输出,其中结果源自多个授权源,但组合本身可能未获授权
- • 时间有效性,其中授权状态可能在多步智能体工作流的开始和结束之间发生变化

### 2.4 新兴智能体授权框架

从 2025 年末到 2026 年初,专门为智能体 AI 系统设计的新兴授权框架迅速出现。我们调查了最具架构意义的框架。

##### 调用绑定能力令牌(Invocation-Bound Capability Tokens)。

Prakash (2026) 提出了调用绑定能力令牌(IBCTs),将身份、衰减授权和溯源绑定融合成一个仅追加的令牌链。指定了两种线格式:用于单跳的紧凑 JWT 和用于多跳委托的带有 Datalog 策略的 Biscuit 令牌。Python 和 Rust 的参考实现展示了 0.049ms 的验证延迟以及在 600 次攻击尝试中 100% 的敌对拒绝率。IBCTs 解决了 R2(显式、有界、可审计的委托)并部分解决了 R5(自包含的授权痕迹),但未解决聚合推理(R4)。

##### 任务范围授权信封(Task-Scoped Authorization Envelopes)。

Sharma 等人 (2026) 提出了 PAuth,挑战了 OAuth 的操作员范围授权模型。PAuth 引入了“NL 切片”——从自然语言任务描述中衍生的每个服务预期工具调用的符号规范——以及将操作数值绑定到符号溯源的“信封”。该系统在良性任务上实现了 100% 的成功率,在注入攻击上实现了 100% 的警告率。信封概念在架构上邻近于配套失败并报告论文中描述的执行业信封模式,而 NL 切片概念提供了一种推导每任务授权范围的机制。

##### 通过执行计数实现能力一致性(Capability Coherence via Execution Counting)。

Parakhin (2026) 提供了形式化证明,表明基于 TTL 的令牌撤销在智能体执行速度下会失败。通过将 CPU 缓存一致性协议(MESI)映射到智能体授权撤销,该论文证明基于执行计数的释放一致性将未经授权的操作限制在 $D_{rcc} \leq n$,**与智能体速度无关**,相比之下,基于时间的方法缩放为 $O(v \cdot TTL)$——未经授权操作减少了 120 倍。这直接通过证明基于时间的撤销对于自主智能体在架构上是错误的,解决了时间有效性子问题(第 5.2.3 节)。

##### 依赖图策略执行(Dependency-Graph Policy Enforcement)。

Palumbo 等人 (2026) 提出了 PCAS,将智能体状态建模为依赖图,捕获工具调用、结果和消息之间的因果关系。Datalog 衍生的策略由参考监视器强制执行。该系统将前沿模型的策略合规性从 48% 提高到 93%,在独立于模型推理的确定性执行下实现了零策略违规。依赖图方法为 R3(每个检索边界的授权)和 R5(工作流范围的痕迹)提供了具体机制。

##### 标准轨道提案(Standards-Track Proposals)。

OpenID 基金会 (2025) 发布了一份关于智能体身份的共识白皮书,Benameur 等人 (2025) 提出了 OIDC-A(OpenID Connect for Agents 1.0),通过智能体身份、委托链验证、证明验证和基于能力的授权扩展 OIDC。连同 IETF AIP 轨道(Prakash, 2026),这些代表了两大主要标准化努力。

### 2.5 智能体安全的正式方法

几项最近的工作为授权传播提供了形式化基础。

Chen (2026) 提出了 AITH,一种用于 AI 智能体的后量子连续委托协议。其六检查边界引擎在一秒内实施推送式撤销。所有五个安全定理均在 Dolev-Yao 模型下通过 Tamarin Prover 进行机器验证。值得注意的是,该协议实现了 79.5% 的自主执行,6.1% 的人工升级和 14.4% 的阻塞——升级率代表了失败并报告模式的实施,即系统在授权不确定时停止并报告,而不是继续。

Garby 等人 (2026) 提出了 LLMbda Calculus,一种丰富了动态信息流控制和 LLM 调用原语的 lambda 演算。他们的终止不敏感非干涉定理为智能体编程建立了完整性和机密性保证。非干涉——低完整性输入不能影响高完整性动作的属性——是授权传播保证的形式化类比:通过智能体链的信息流保持授权边界。

Song 等人 (2026)(UC Berkeley / ETH Zurich)为 LLM 智能体提出了四个上下文安全属性:任务对齐、动作对齐、源授权和数据隔离。源授权直接映射

相似文章

多智能体系统

Reddit r/artificial

一位社区成员分享了一个多智能体AI系统(AIPass)的GitHub仓库,希望获得关于其功能和潜在应用的反馈。

智能体AI系统的治理实践

OpenAI Blog

OpenAI发布了关于智能体AI系统治理的白皮书,提出了自主AI智能体的定义、生命周期责任和基础安全实践。该白皮书讨论了广泛采用智能体AI可能带来的风险和间接影响,同时推出了研究资助项目。

公开构建多智能体框架已经 7 周了,这是一段旅程。

Reddit r/artificial

AIPass 是一个本地 CLI 多智能体框架,它为 AI 智能体提供持久化身份、共享文件系统访问和智能体间消息通信,且无需沙箱环境。该项目由开发者独自公开构建,历时 7 周,包含 4000 多项测试和 400 多个 Pull Request。