运行时的管理自主性:基于档位的单/多智能体信息物理系统安全与治理
摘要
本文介绍了EntropyRuntime,一个用于单/多智能体LLM驱动及机器人智能体的离散时间控制系统,采用五个执行档位,配备效用门控调度和事件驱动回退,以确保安全、稳定和连续性。它提供了形式化证明,并在一个三智能体UR5机器人装配单元上进行评估,实现了99.6%的异常检测率。
arXiv:2607.00334v1 Announce Type: new
摘要:自主智能体,无论是LLM驱动的软件智能体还是机器人物理智能体,在没有持续人工监督的情况下运行时,面临一类常见的故障模式:未验证动作导致的安全违规、无约束循环导致的行为不稳定,以及未处理错误状态导致的连续性丧失。我们开发了\system{},一个离散时间控制系统,结合了五个执行档位(\Gobs{}、\Gsug{}、\Gplan{}、\Gexec{}、\Gint{})与效用门控调度和事件驱动回退。对于单智能体情况,我们证明了单调稳定性、执行安全性、最终稳定性、回退完备性,以及与档位约束马尔可夫决策过程的等价性。对于多智能体信息物理系统(CPS),我们应用已建立的\smart{}管理自主生命周期,并将运行时证据映射到其四个治理状态(\Stable{}、\Meta{}、\Assisted{}、\Regulated{})。共识门控、群体级李雅普诺夫分析、单智能体档位权限以及会合控制提供了分布式安全与稳定性保证,包括在所述假设下的零碰撞。我们在一个三智能体UR5机器人装配单元上评估了所得运行时,使用了从NIST \emph{Degradation Measurement of Robot Arm Position Accuracy}数据集校准的故障幅度,跨越10,000个蒙特卡洛回合。它实现了99.6\\%的异常检测率,而单智能体基线为2.1\\%,检测延迟降低了$3.5\\times$,并提供了形式化的物理工作空间安全证书。执行档位作为\smart{}运行时治理状态下的微级权限,将动作控制与自主治理分离开。
查看缓存全文
缓存时间: 2026/07/02 05:40
# 基于档位的单智能体与多智能体信息物理系统安全与治理 来源:https://arxiv.org/html/2607.00334 王妙升 独立研究员 ORCID: 0009-0003-2767-2421 [email protected] ###### 摘要 自主智能体,无论是基于大语言模型的软件智能体还是机器人实体智能体,在缺乏持续人类监督时面临一类常见的故障模式:未经验证的行为导致的安全违规、不受约束的循环导致的行为不稳定,以及未处理错误状态导致的连续性丢失。我们提出了 EntropyRuntime,一个离散时间控制系统,它将五个执行档位(观察、建议、规划、执行、集成)与效用门控调度和事件驱动的回退相结合。对于单智能体情况,我们证明了单调稳定性、执行安全性、最终稳定、回退完备性,以及等价于一个档位约束的马尔可夫决策过程。对于多智能体信息物理系统(CPS),我们应用已建立的 SMARt 管理自主生命周期,并将运行时证据映射到其四个治理状态(Stable/Meta-Cognitive/Assisted/Regulated)。共识门控、群体级 Lyapunov 分析、每个智能体的档位权限和会合控制提供了分布式安全与稳定性保证,包括在所述假设下的零碰撞。我们在一个三智能体 UR5 机器人装配单元上评估了所得到的运行时,使用了从 NIST*机械臂位置精度退化测量*数据集中校准的故障幅度,跨越 10,000 个蒙特卡洛情节。它实现了 99.6% 的异常检测率,而单智能体基线为 2.1%,将检测延迟降低了 3.5 倍,并提供了正式的工作空间安全证书。执行档位作为 SMARt 运行时治理状态下的微级别权限,将动作控制与自主治理分离。 关键词:管理自主、人工智能治理、自主智能体、运行时验证、基于档位的安全、效用门控、多智能体系统、信息物理系统、Lyapunov 稳定性、机器人装配 ## 1 引言 能够进行多步推理、工具使用和环境交互的大语言模型(LLM)智能体的出现,创造了一类新的自主系统[1 (https://arxiv.org/html/2607.00334#bib.bib1),2 (https://arxiv.org/html/2607.00334#bib.bib2)]。这些智能体在闭环中运行,接收观察、生成计划、通过外部工具执行动作并整合反馈,通常无需对每一步都进行人工审批。同时,机器人和信息物理智能体越来越多地在共享的物理工作空间中运行,传感器故障、协调失败和不安全行为会立即产生物理后果。这两种场景共享一个结构性问题:智能体的自主权以二元且静态的方式被授予,缺乏根据观察到的安全信号动态调整允许动作范围的原理性机制。 自主智能体面临三种相互关联的故障模式。首先,*安全违规*:智能体可能发出产生不可逆副作用的动作而未经过充分验证[3 (https://arxiv.org/html/2607.00334#bib.bib3)]。其次,*行为不稳定*:智能体可能在策略之间振荡、无法收敛或进入退化循环[4 (https://arxiv.org/html/2607.00334#bib.bib4)]。第三,*连续性丢失*:智能体可能意外停止,丢失累积的上下文,需要昂贵的手动重启。在多智能体 CPS 中,出现第四种故障模式:*协调盲点*,其中一个智能体的传感器故障对所有邻居产生影响,但每个智能体的控制层在结构上无法检测或响应此故障。 我们开发 EntropyRuntime 以通过基于档位的动作控制来解决这些故障模式。在每个周期中,五个档位之一限制允许动作的范围和影响,效用门在调度前评估每个候选动作。对于多智能体 CPS,我们使用 SMARt 框架,它将自主性建模为四状态生命周期,在此生命周期中,权威被持续验证,且可被暂停、辅助或撤销[5 (https://arxiv.org/html/2607.00334#bib.bib5)]。我们将这些模式称为 SMARt 运行时治理状态。共识门协调各智能体间的调度,而分配给每个智能体的档位定义其允许的动作范围。因此,本文集中于动作级执行和物理 CPS 认证,而非重新定义治理生命周期。档位 G0 至 G4 在 Stable、Meta-Cognitive、Assisted 和 Regulated 之下运行,将权威决策与可执行行为联系起来。 我们的贡献如下: 1. 1. 我们形式化了*档位状态抽象*,涵盖 G0 至 G4,具有明确定义的转换,并证明了单调稳定性(定理1 (https://arxiv.org/html/2607.00334#Thmtheorem1))和最终稳定(定理3 (https://arxiv.org/html/2607.00334#Thmtheorem3))。 2. 2. 我们形式化了*效用门控执行*,并证明了执行安全性:任何具有负效用的动作永远不会被调度(定理2 (https://arxiv.org/html/2607.00334#Thmtheorem2))。 3. 3. 我们设计了一个*事件驱动的回退机制*,并证明了回退完备性:每个可恢复的错误状态都存在恢复路径(定理4 (https://arxiv.org/html/2607.00334#Thmtheorem4))。 4. 4. 我们建立了一个*表示定理*(定理5 (https://arxiv.org/html/2607.00334#Thmtheorem5)),将 EntropyRuntime 连接到马尔可夫决策过程形式体系。 5. 5. 我们进行了*消融研究*,证明了每个单智能体组件对于安全性、稳定性和连续性都是必要的。 6. 6. 我们通过*共识效用门*、*群体 Lyapunov 函数*、*每智能体档位权限*和*会合策略三元组*将多智能体运行时证据映射到 SMARt 治理状态(定义7 (https://arxiv.org/html/2607.00334#Thmdefinition7) 至 11 (https://arxiv.org/html/2607.00334#Thmdefinition11))。 7. 7. 我们建立了五个分布式结果,涵盖执行和会合安全性、单调工作空间稳定性、反馈耦合衰减和碰撞避免(定理6 (https://arxiv.org/html/2607.00334#Thmtheorem6)、8 (https://arxiv.org/html/2607.00334#Thmtheorem8) 和 10 (https://arxiv.org/html/2607.00334#Thmtheorem10);推论7 (https://arxiv.org/html/2607.00334#Thmtheorem7) 和 9 (https://arxiv.org/html/2607.00334#Thmtheorem9))。 8. 8. 我们评估了三智能体 UR5 机器人装配单元上的多智能体运行时,经过 10,000 个蒙特卡洛情节,展示了相对于单智能体基线 47.7 倍的异常检测改进。 第2节 (https://arxiv.org/html/2607.00334#S2) 回顾相关工作,第3节 (https://arxiv.org/html/2607.00334#S3) 建立形式化模型。第4节 (https://arxiv.org/html/2607.00334#S4) 描述 EntropyRuntime 单智能体架构。第5节 (https://arxiv.org/html/2607.00334#S5) 提出单智能体保证和组件消融。第6节 (https://arxiv.org/html/2607.00334#S6) 定义多智能体治理和控制,随后是第7节 (https://arxiv.org/html/2607.00334#S7) 中的分布式保证。第8节 (https://arxiv.org/html/2607.00334#S8) 结合 UR5 CPS 案例研究、实验设置、结果和组件消融。第9节 (https://arxiv.org/html/2607.00334#S9) 讨论启示、部署考量和局限性,第10节 (https://arxiv.org/html/2607.00334#S10) 总结。完整证明见附录A (https://arxiv.org/html/2607.00334#A1) 和 B (https://arxiv.org/html/2607.00334#A2)。 ## 2 相关工作 将自主性视为可撤销而非永久授予的底层观点[5 (https://arxiv.org/html/2607.00334#bib.bib5)],与根据任务风险、环境可预测性和已证明的可靠性来变化权威的分类法[6 (https://arxiv.org/html/2607.00334#bib.bib6)]、关于人类干预抵抗的可纠正性研究[7 (https://arxiv.org/html/2607.00334#bib.bib7)]以及系统论安全性(事故由不充分的控制动作和约束以及组件故障引起)[8 (https://arxiv.org/html/2607.00334#bib.bib8)]相一致。本文通过将这些治理状态链接到五个运行时档位,提供了执行层。 当代的 LLM 智能体系统结合了推理、工具使用、反馈和重复的环境交互[9 (https://arxiv.org/html/2607.00334#bib.bib9),10 (https://arxiv.org/html/2607.00334#bib.bib10),11 (https://arxiv.org/html/2607.00334#bib.bib11)]。通信标准如模型上下文协议解决了智能体和工具如何交换上下文[12 (https://arxiv.org/html/2607.00334#bib.bib12)],而验证框架评估所提议的工具调用或智能体行为是否满足安全规范[3 (https://arxiv.org/html/2607.00334#bib.bib3),4 (https://arxiv.org/html/2607.00334#bib.bib4)]。这些方法与本文架构互补。EntropyRuntime 并非改变推理模型或通信协议,而是插在推理与执行之间,通过效用门评估每个候选动作,并在动作不可接受时调用回退或降低权威。 更广泛的 AI 安全文献将不安全探索、意外副作用和可扩展监督识别为持续存在的问题[13 (https://arxiv.org/html/2607.00334#bib.bib13)],而人类兼容 AI 强调其操作始终与人类偏好和干预保持一致的目標[14 (https://arxiv.org/html/2607.00334#bib.bib14)]。分层强化学习在动作的各个层次上提供时间抽象[15 (https://arxiv.org/html/2607.00334#bib.bib15)],而诸如软演员-评论家和好奇心驱动探索等方法通过奖励、熵或内在动机在统计上调节探索[16 (https://arxiv.org/html/2607.00334#bib.bib16),17 (https://arxiv.org/html/2607.00334#bib.bib17)]。档位机制在目的上有所不同:它施加了明确的动作空间限制和调度不变性,因此安全性不仅仅依赖于智能体所学到的或奖励函数的形状。 运行时设计也借鉴了实时和随机控制。实时系统研究区分了硬实时和软实时保证,并强调在操作约束下的可预测响应[18 (https://arxiv.org/html/2607.00334#bib.bib18)]。使用有限状态马尔可夫链概念分析离散档位过程[19 (https://arxiv.org/html/2607.00334#bib.bib19)],而表示结果将运行时与经典 MDP 和动态规划形式体系联系起来[20 (https://arxiv.org/html/2607.00334#bib.bib20),21 (https://arxiv.org/html/2607.00334#bib.bib21)]。信息论提供了将熵项 \(H_i\) 解释为对退化遥测的惩罚[22 (https://arxiv.org/html/2607.00334#bib.bib22)]。 对于多智能体操作,共识文献建立了网络化智能体系统的收敛条件[23 (https://arxiv.org/html/2607.00334#bib.bib23)];我们的共识门使用更保守的执行谓词 \(\min_i U_i \geq \theta\),在该谓词下,任何不安全的本地区评估都会阻止联合调度,而不依赖于消息达成一致。最后,多机器人研究已使用工作空间分解和速度缩放来协调共享工业环境中的团队[24 (https://arxiv.org/html/2607.00334#bib.bib24)],而对异构机器人团队的调查将传感器异质性和协调脆弱性识别为主要的操作风险[25 (https://arxiv.org/html/2607.00334#bib.bib25)]。多智能体运行时在一个控制结构中结合了这些关注点:Meta-Cognitive 应用有界速度降低,Regulated 强制执行 E-Stop,熵感知的本地效用检测遥测退化(在几何因素变得关键之前),而群体 Lyapunov 函数认证工作空间行为。这整合了治理转换、动作门控、分布式协调和 CPS 安全性。 ## 3 形式化预备知识 我们工作于离散时间 \(t \in \mathbb{N}\)。在每个周期 \(t\),智能体观察环境状态 \(s_t \in \mathcal{S}\),选择动作 \(a_t \in \mathcal{A}\),并接收奖励信号 \(r_t \in \mathbb{R}\)。 ###### 定义 1(档位状态空间)。 *档位状态空间*为 \(\mathcal{G} = \{G_0, G_1, G_2, G_3, G_4\}\),分别代表观察(\(G_0\))、建议(\(G_1\))、规划(\(G_2\))、执行(\(G_3\))和集成(\(G_4\))。每个档位 \(G_k\) 定义一个受限的动作子空间 \(\mathcal{A}_k \subseteq \mathcal{A}\),满足 \(\mathcal{A}_0 \subset \mathcal{A}_1 \subset \mathcal{A}_2 \subset \mathcal{A}_3 \subset \mathcal{A}_4 = \mathcal{A}\)。具体而言:\(G_0\) 提供观察或安全保持;\(G_1\) 允许候选计划生成而不产生外部副作用;\(G_2\) 允许有界、可逆或保持安全的恢复动作,包括信息查询和以降低速度继续执行先前授权的命令;\(G_3\) 允许独立选择的具有副作用的动作;而 \(G_4\) 表示在主导宏观状态下的集成系统级协调。 ###### 定义 2(效用函数)。 *效用函数* \(U: \mathcal{S} \times \mathcal{A} \to \mathbb{R}\) 将状态-动作对映射到一个实值效用分数。动作 \(a\) 在状态 \(s\) 中是*可采纳的*,当且仅当 \(U(s,a) \geq 0\)。 ###### 定义 3(效用门)。 *效用门* \(\textsc{Gate}(s,a)\) 是一个二元谓词: \[ \textsc{Gate}(s,a) = \begin{cases} 1 & \text{if } U(s,a) \geq \theta \\ 0 & \text{otherwise} \end{cases} \] 其中 \(\theta \geq 0\) 是安全阈值。 ###### 定义 4(运行时状态)。 在周期 \(t\) 的*运行时状态*是元组 \(\rho_t = (s_t, g_t, \sigma_t, \epsilon_t)\),其中 \(s_t \in \mathcal{S}\) 是环境状态,\(g_t \in \mathcal{G}\) 是当前档位,\(\sigma_t \in \mathbb{R}_{\geq 0}\) 是累积的不稳定性度量,而 \(\epsilon_t \in \{0,1\}\) 是错误标志。 ###### 定义 5(转移核)。 *转移核* \(T: \mathcal{R} \times \mathcal{A} \to \Delta(\mathcal{R})\) 将运行时状态和动作映射到下一运行时状态的分布,其中 \(\mathcal{R} = \mathcal{S} \times \mathcal{G} \times \mathbb{R}_{\geq 0} \times \{0,1\}\)。 ## 4 EntropyRuntime 架构 EntropyRuntime 是一个离散时间闭环控制系统,插在 LLM 智能体与其执行环境之间。在每个周期中,系统执行四个阶段:(1) 观察和档位评估,(2) 动作生成,(3) 效用门控,(4) 执行和反馈。 周期 \(t\): 1. 读取环境状态 \(s_t\);评估当前档位 \(g_t\)。 2. 通过 LLM 生成候选动作 \(a_t \in \mathcal{A}_{g_t}\)。 3. 评估 \(\textsc{Gate}(s_t, a_t)\);若被拒绝,则调用回退。 4. 若被接受,执行 \(a_t\);观察 \(s_{t+1}, r_t\)。 5. 更新 \(\sigma_t, \epsilon_t\);确定 \(g_{t+1}\)。 图 1:EntropyRuntime 控制循环。 #### 档位状态机。 档位转换遵循确定性策略 \(\pi_G: \mathcal{R} \to \mathcal{G}\): (1) 升级:如果 \(\sigma_t < \sigma_{\text{low}}\)
相似文章
重构性权威的运行化:自主代理系统中的运行时构建、依赖解析与执行门控
本文介绍了一种自主代理的运行时执行模型,该模型强制执行'重构性权威'——仅当从当前状态能构建出权威时,才允许执行动作。该模型包括动态依赖解析、针对不确定性的暂停状态以及集成漂移检测的恢复循环。
Goal-Autopilot:一种可验证的抗虚构防火墙,用于无人值守的长时域智能体
本文提出了Autopilot,一种用于长时间跨度LLM智能体的执行模型,通过将状态外部化到门控有限状态机中来强制诚实终止。它提供了防止虚构成功的理论保证,并在实证评估中展示了比Reflexion和StateFlow显著更低的虚构率。
你的智能体拥有基因组:LLM驱动的自主智能体的序列级行为分析与运行时治理
本文介绍了Base Sequence Analysis框架,该框架将LLM智能体的运行时行为编码为紧凑序列,揭示了高风险模式(如'P-X-P'三元组)和验证缺失。它提出了Governor,一个运行时干预系统,使任务成功率提高了6.2%,并将令牌消耗减少了44%。
运行时治理:2026年AI代理缺失的一环
文章讨论了AI代理运行时治理的必要性,以平衡自主性与合规性,并介绍了SAFi——一个开源框架,可实时执行策略并审计操作。
协同单形:面向安全关键自主系统的协作式运行时保障
本文介绍了协同单形(Synergistic Simplex),这是一种用于自主系统的全新运行时保障架构,允许安全监控器利用机器学习(ML)输出,同时保留形式化安全保证。作者通过其在自动驾驶汽车障碍物检测中提升性能的演示,证明了其有效性。