Foundation Protocol:面向智能体社会的协调层
摘要
本文介绍了Foundation Protocol,这是一种以图优先的协调层,旨在实现新兴人机社会中可靠的多智能体协作、经济交换和问责制。
查看缓存全文
缓存时间: 2026/05/25 08:56
# 智能体社会的协调层 来源:https://arxiv.org/html/2605.23218 1\]FoundationAgents 2\]蒙特利尔大学 & Mila 3\]DeepWisdom 4\]香港科技大学(广州) 5\]新加坡科技设计大学 6\]香港城市大学 7\]新加坡管理大学 8\]南洋理工大学 9\]杜克大学 10\]伊利诺伊大学厄巴纳-香槟分校 11\]香港理工大学\\contribution\[\*\]核心贡献者。\\contribution\[†\]通讯作者。 ## Foundation 协议:智能体社会的协调层 Yongfeng GuJiayi ZhangZhaoyang YuSirui HongMaojia SongXiaoqiang WangMingyi DengZijie ZhuangRonghao WangMingzhe CaoYutong ZhuXingjian LiYifan WuJianhao RuanYiran PengShuangrui ChenJinlin WangYizhang LinDongjie ZhangDekun WuChen MaLizi LiaoHan YuJian PeiHeng JiQiang YangYuyu LuoChenglin Wu\[\[\[\[\[\[\[\[\[\[\[ ###### 摘要 自主智能体正从工具演变为社会基础设施层:它们浏览、购买、部署软件、管理系统,并且日益相互交互。随着这些系统规模扩大,瓶颈从原始模型能力转向协调能力。智能体需要建立可靠关系、组织多智能体工作、交换价值、支持人工智能经济,并在现实监督下保持安全与问责。本文介绍了 *Foundation 协议 (FP)*,一种针对新兴人机社会的图优先协调层。FP 统一了异构实体,包括智能体、工具、资源、人类、机构与组织,并原生支持多方组织和基于事件的协作。它还提供了用于计量、收据和结算的经济原语,并将策略、溯源和审计视为第一类关注点。FP 旨在包装和桥接现有协议,而非取代它们,从而在降低集成与治理开销的同时实现渐进式采用。目标是让自主智能体保持可组合性,同时确保问责不可妥协,从而使协调本身成为开放、多元、可治理的人机社会的共享基础设施。 ## 1 引言 自主智能体开始进入互联网,其角色已不再是供我们操作的工具,而是能够代表我们行事的参与者。它们读写与我们相同的服务,持有长期凭证,购买资源,部署软件。它们的决策带来财务、运营和声誉后果。在早期部署中,智能体可能只是几个 API 上的一个薄的自然语言层。更雄心勃勃的系统将其视为持久操作者:一个能够随时间跨服务规划、协调、谈判和行动的操作者。这一转变改变了协议的角色。协议是使此类系统可互操作的协定。它们不是库或 SDK,而是共享编排:存在哪些角色、消息的含义、委托的权限以及允许的状态转换。对于智能体系统,这一边界之所以重要,是因为通信通常就是执行,而执行会带来经济、社会和治理后果。 考虑一下智能体变得普遍后,一个普通工作流会是什么样子。用户可能让个人智能体跨多个供应商安排旅行、协商退款并控制在预算内。为此,智能体招募专业智能体负责行程规划、价格监控、策略合规和支付执行。在敏感节点,它会请求用户批准。旅行结束后,它通过可审计的收据与供应商结算。同样的模式很快扩展到个人助理之外。研究团队可能组建一个人工智能团队来搜索文献、租用 GPU 时间、协调仪器、运行分析,并生成能经受后续审查的溯源轨迹。单人公司可能通过一个由智能体构成的网络来运营,处理设计、工程、采购、合规、销售和客户支持。在更自主的环境中,人工智能组织可能形成和解散。它们雇佣外部服务、竞争资源,并在明确规则下与人类机构交互。重点不在于这些例子属于不同领域,而在于它们共享相同的结构。智能体、人类、工具、服务、公司和机构成为演化图中的节点。它们委托权限、组建团队、交换价值、执行策略并留下证据。我们所描述的并非一次对话,甚至不是一次多智能体聊天。它是一个微型的人机混合社会。一旦智能体跨组织边界招募、交易、报告和行动,身份、预算、溯源和监督就不能再作为事后附加物。它们成为通信基础设施本身的一部分。 早期系统已显示出这种模式的碎片。OpenClaw 提出了一个本地运行、聊天控制的智能体运行时。它可以嵌入普通通信渠道,并通过不断扩展的技能生态系统协调工具使用 [openclaw_site, openclaw_github]。Moltbook 则从不同方向推动了这一理念。它是一个社交层,智能体在此维护档案、发布更新、相互认证,并在人类外部观察下交互 [moltbook_site, wired_moltbook]。它们从不同侧面展示了同样的转变。智能体不再只是工具的接口,而是成为在共享环境中通信、委托并与其他实体相遇的持久实体。这一趋势也改变了“通信”的含义。在传统软件中,消息通常传递信息。在智能体系统中,消息可能触发代码执行、资源使用、支付、委托或策略变更。当智能体摄入不受信任的内容、下载第三方代码并持有持久凭证行动时,通信与执行之间的界限变得模糊。微软的安全研究团队将自托管智能体运行时描述为具有持久权限的不受信任代码执行,并建议采用隔离、限定范围的身份和持续监控 [microsoft_openclaw_security]。因此,自主性将协议层变成了安全边界。协议不再仅仅是集成的便利工具,而是系统记录身份、委托权限、留下证据并执行问责的地方。 现有协议已覆盖智能体交互的几个重要部分。MCP 为模型提供了一种通用的工具使用方式 [mcp_spec]。A2A 定义了智能体间任务协作的表面 [a2a_spec]。A2UI 关注通过用户界面的可控委托 [a2ui_spec]。DIDComm 提供了基于 DID 的安全消息传递 [didcomm_spec]。ANP 强调开放网络中智能体的发现与协商 [anp_paper]。UCP 则针对自主参与者之间的商业活动 [ucp_spec]。每个协议都解决了一个真实边界。问题在于,智能体社会并不仅仅停留在这些边界内。单个工作流可能需要在同一行动链中涉及工具使用、智能体委托、UI 控制、身份验证、支付、策略执行和审计。 在这里,碎片化代价高昂。当每个协议都带有自己的身份、会话状态、权限、跟踪和证据概念时,集成就不只是适配器的问题。语义开始在各层间漂移。溯源可能在协议边界处断裂。监督成为日志、收据、访问控制规则和提示片段的拼凑。最近关于智能体协议的调查指出了围绕协作、可扩展性、安全性、隐私和基于组的交互的相关差距 [yang2025survey]。对于 FP 而言,这些差距并非次要。当自主实体形成团队、交换价值并在现实世界的问责下运作时,它们就变得核心。 其后果既是技术性的,也是制度性的。如果互操作仍然困难,那么垂直集成就成为最简单的路径。少数平台端到端地拥有身份、策略、路由、记忆和经济结算。如果互操作是临时拼凑的,开放网络可能仍会出现,但它们会保持脆弱,难以审计,也难以防御滥用。基础层应避免这种错误的选择。它应使异构协议更容易组合,并将重要问题(如身份、权限、价值、溯源和治理)在整个系统中保持可见。 这就是 *Foundation 协议 (FP)* 的角色。FP 是一种图原生协议,用于异构智能体组织,其中协调、经济交换和可问责执行共享同一个基础层。它将智能体、工具、资源、人类、机构和组织视为共享图中的可寻址实体。它将关系、成员资格、会话和活动视为第一类协议对象。并为价值交换、策略、溯源和审计提供了一个共同的证据脊柱。其目的不是取代现有协议,而是提供控制面子层,使它们能够跨边界组合,同时保留系统在扩展时保持可治理所需的身份、权限和问责。 ### 1.1 从蒸汽到智能体:作为智能密度增长的工业革命 解读两个世纪的工业变革,一个富有启发性的视角不仅是通过机器或燃料,而是通过社会能够聚集和协调智能的密度。我们用 *智能密度* 来表示能够聚集在社会或技术系统中的有用认知工作的量:多少专门知识可用,它们流通多快,以及如何有效地组织成行动。从这个角度看,每一次工业浪潮都伴随着我们聚集和引导人类知识能力的一次阶跃性变化。蒸汽和机械化将工艺转化为有组织的生产。电力和流水线使工程和工业研发专业化。电子和计算扩大了知识劳动力。随后,工业 4.0 融合了网络、传感器和赛博物理反馈回路 [schwab2016fourth, hermann2016industrie]。这些转变不仅仅是技术性的。它们还将制度、标准、金融和生产重组为新的技术经济范式,使知识能够更有效地流通和积累 [perez2002technological]。兼容性和网络效应进一步加速了这一过程 [katz1985network]。 表 1:通过*智能密度*视角看工业革命如此看来,下一步已经可见。虽然第四次工业革命将流程数字化,但下一阶段将系统化智能参与者(包括人类和人工智能)之间的协调。智能体提供了可复用的认知单元;缺失的是一个共同的基础设施,通过这些基础设施,这些参与者可以相互发现、建立身份、形成团队、交换有限上下文、进行交易,并跨组织边界留下可审计的证据。基础协议决定了这种协调是变得低成本、开放和可治理,还是变得脆弱、专有和集中化。 ### 1.2 从超链接到超现实:我们数字社会的演进与教训 为了看清新的基础层应保留、修复和扩展什么,回顾网络的发展是有益的。Web 1.0 将文档链接成全球信息共享空间 [bernerslee1991proposal]。Web 2.0 将读者转变为参与者,但也将权力集中在基于监视的平台中 [oreilly2005web2, zuboff2019age]。Web 3.0 试图通过密码学和智能合约实现去中心化,但常常在碎片化和可用性方面挣扎 [buterin2014nextgen]。下一阶段,有时被称为智能体或共生网络,增加了无处不在的人工智能、环境计算和混合现实。数字系统不再仅仅呈现信息;它们越来越多地代表我们行动、决策和调解关系。 图 1 (https://arxiv.org/html/2605.23218#S1.F1) 将这段历史压缩到一个视图中。每一代都扩展了网络的能力,但也揭示了一个新的协调问题。智能体系统使这个问题更加尖锐,因为它们不仅仅是发布或消费内容。它们大规模地行动、交互和交易。 参照图 1 的说明文字图 1:网络演进的简明视图:每代都提高了能力,同时也暴露了新的协调失败。Web 4.0 类系统加剧了这些失败,因为智能体大规模地行动、交互和交易。对 FP 而言,有两个教训很重要。第一,能力往往先于治理它所需的协调原语到来。互联网非常擅长移动数据包和链接资源;但它远不擅长澄清谁在行动、什么权限被委托、消息承诺了什么、以及事后谁可以被问责。第二,随着系统变得更加智能体化,安全性不能停留在协议层之外。网络的下一个阶段将不仅仅分发内容。它将分发代理。一旦代理被分发,身份、策略、溯源和治理就成为通信基础设施本身的一部分。 ### 1.3 设计目标与基础层的理由 一个针对智能体社会的协议不是由单一消息类型定义的。相反,它是由所有参与者操作的便利性、安全性和成本决定的。一个有用的起点是 *行为封闭性*:自主智能体在共享一个世界时需要一起做什么?在实践中,大多数智能体系统反复收敛于四个基本意图。它们交换信息、协调工作、交换价值以获取资源和服务,并在偏好、约束或义务冲突时进行协商。 现有协议涵盖了这一空间的重要部分。MCP 为模型到工具访问提供了强大的接口;A2A 为智能体间任务协作提供了实用的表面;A2UI 专注于可控接口委托;DIDComm 提供了基于 DID 的安全消息传递;ANP 强调开放智能体网络中的发现与协商;UCP 针对智能体商业活动 [mcp_spec, a2a_spec, a2ui_spec, didcomm_spec, anp_paper, ucp_spec]。每个都解决了一个真实边界。目前仍缺乏规范的是这些生态系统反复以不同形式重新创建的共享基底:统一的 *实体* 概念、超越点对点会话的 *第一类组织*、可互操作的 *经济证明*,以及适用于审计和监督的端到端 *证据脊柱*。 FP 的设计目标源于这一差距,也源于自主系统中验证的新兴经济学 [virtual_agent_economies]。最近的经济分析使这种压力变得清晰。随着自主执行变得越来越便宜,稀缺的互补品转向验证能力、密码学溯源和责任承保 [agi_economics]。FP 在一个可寻址模型下统一异构实体,并将组织、角色和委托视为协议原语而非中间件约定。它将交互结构化为具有排序和相关性的事件和流,使协作在扩展时仍可观察。它增加了经济原语,包括计量、收据、结算参考和争议信号,以与账本无关的形式出现,因此价值交换可以在不强制要求支付轨道的情况下被审计。最后,它通过策略执行点和溯源钩子使治理成为头等公民,使系统能够实现快速执行而不意味着脆弱的问责。 还有两个额外约束塑造了设计。首先,FP 是为进步
相似文章
基础智能体的进展与挑战:从脑启发智能 到演化、协作与安全系统
关于基础智能体的全面综述,提出了模块化脑启发架构,涵盖自我增强机制、多智能体协作和AI安全。
OpenAI 联合创立 Agentic AI Foundation,捐赠 AGENTS.md
# OpenAI 在 Linux Foundation 下联合创立 Agentic AI Foundation 来源:[https://openai.com/index/agentic-ai-foundation/](https://openai.com/index/agentic-ai-foundation/) 今天,OpenAI 与 Anthropic 和 Block 联合创立了 [Agentic AI Foundation (AAIF)(在新窗口打开)](https://aaif.io/),该基金会在 Linux Foundation 下运营,并得到了 Google、Microsoft、AWS、Bloomberg 和 Cloudflare 的支持。AAIF 旨在为开放、可互操作的
叠加治理:面向代理型AI的委托与范围组合式授权框架
本文提出一种面向代理型AI系统的组合式授权框架,引入了委托、范围衰减及递归权限链等原语,以治理自主AI代理。
可信代理网络:代理网络中的信任必须内建而非外加
这篇愿景论文认为,代理间(A2A)网络中的信任必须从一开始就集成其中,因为现有的代理对齐技术不足以解决诸如对抗性组合和语义错位等系统性漏洞。
Context:通过可组合沙箱程序、声明式布线及结构化交互实现主动目标导向智能
本文介绍了Context——一种替代反应式聊天机器人的主动目标导向智能体新架构。通过可组合沙箱程序、声明式布线和主动状态机,本文给出了证明效率提升的形式化定理,并提供了开源实现。