SPIN:基于张量化策略协调的去中心化集群控制

arXiv cs.LG 论文

摘要

本文介绍了SPIN,一种用于去中心化多智能体集群控制的框架,该框架利用张量网络分解将计算复杂度从指数级降低到线性级,从而支持低功耗边缘部署。通过仿真对追踪、覆盖和协调任务进行了验证。

arXiv:2606.07557v1 公告类型:新 摘要:在资源受限的边缘平台上进行去中心化多智能体集群协调,其根本瓶颈在于联合动作空间的指数级扩展和高延迟通信开销。本文介绍了一种名为集群策略干扰网络(SPIN)的框架,这是一种架构范式,通过将集群拓扑建模为压缩张量网络来绕过这些限制。我们将局部多智能体团的联合策略张量分解为矩阵乘积态(MPS)链,将评估的计算复杂度从指数级 $O(n^m)$ 壁垒降低到严格的线性级 $O(m \cdot n \cdot \chi^2)$ 约束。为了将局部连续空间几何与这一离散代数后端连接起来,同时避免高功耗的在线训练循环,我们引入了一种解耦的混合神经符号控制流水线。局部多层神经网络作为结构协调编码器,通过离线预训练,将手工设计的几何描述符非线性映射为抽象的环境目标度量。在运行时,边缘代理直接应用Radon-Nikod'ym导数作为零样本重要性重加权滤波器,执行瞬时行为适应。我们在一个离散时间多智能体仿真沙箱中验证了该框架,涵盖追踪、去中心化分散/区域覆盖以及多目标协调场景。定性遥测数据显示,集成流水线实现了稳定的目标导向运动、去中心化约束下的抗塌缩空间扩展以及跨多个目标的结构化子群形成,为可计算、低功耗的边缘集群智能提供了一条数学上坚实的路径。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:45

# SPIN: 基于张量化策略协调的去中心化集群控制
来源: https://arxiv.org/html/2606.07557

###### 摘要

在资源受限的边缘平台上进行去中心化多智能体集群协调,其根本瓶颈在于联合动作空间的指数级膨胀和高延迟通信开销。本文提出了集群策略干扰网络(SPIN)框架,这是一种通过将集群拓扑建模为压缩张量网络来规避这些限制的架构范式。我们将局部多智能体团簇的联合策略张量分解为矩阵乘积态(MPS)链,将评估的计算复杂度从指数级 O(n^m) 严格降低到线性级 O(m·n·χ²)。为将局部的连续空间几何结构与这一离散代数后端桥接起来,且无需功耗密集的在线训练循环,我们引入了一种解耦的、混合神经符号控制流水线。局部多层神经网络充当结构协调编码器,经过离线预训练,将手工设计的几何描述子非线性映射为抽象的环境目标度量。在运行时,边缘智能体通过直接应用 Radon-Nikodým 导数作为零样本重要性重加权滤波器,来执行即时行为适应。我们在一个离散时间多智能体仿真沙箱中验证了该框架,涵盖追踪、去中心化分散/区域覆盖以及多目标协调等场景。定性遥测数据表明,集成流水线实现了稳定的目标导向运动、去中心化约束下的抗崩溃空间扩散以及跨多个目标的结构化子群形成,为在低功耗边缘设备上实现可处理的集群智能提供了一条有数学依据的路径。

## 1 引言

自主机器人集群(如微型无人机)的部署,为分布式目标跟踪、环境监测和去中心化搜救任务带来了变革性机遇 [11, 4]。然而,从局部的、独立的飞行执行器设计出内聚的全局行为,在算法可扩展性和边缘计算能力之间引入了一个关键的权衡 [2]。经典的基于多智能体强化学习(MARL)或集中式云端编排器的去中心化范式,在现实环境中运行时面临严重的实现缺陷 [15],这些环境的特点是间歇性的自组织网络连接 [1, 5] 和严格的机载功率限制。

两种核心结构性瓶颈困扰着最先进的多智能体架构。首先是联合动作空间固有的维度灾难问题。在一个系统中,当 m 个相邻智能体需要在 n 个离散宏观行为间进行协调时,全局或联合概率张量会以 O(n^m) 的指数级规模扩展 [10]。评估或更新这一组合状态空间会迅速超出标准低功耗微控制器的内存和处理限制。为了在不导致计算规模爆炸的前提下保持协调性,传统的图模型采用迭代共识消息传递或置信传播协议。这引入了第二种失效模式:对网络延迟、通信时延和数据包丢失高度敏感 [9, 6],常常导致行为失同步或灾难性的碰撞级联。

此外,现实世界的集群部署要求智能体能够解释连续的物理感知流(例如 LiDAR 点云 [7]),并将其转化为稳定的控制指令。虽然深度神经网络擅长开放式的函数逼近,但在资源受限的边缘飞行硬件上,实时进行机载反向传播或随机梯度下降更新以调整策略是完全不可行的 [8, 13]。为解决这一困境,本文提出了集群策略干扰网络(SPIN)框架,一种通过压缩张量化协调机制和零样本代数过滤,实现可扩展、通信高效的集群协调的去中心化控制架构。与通常局限于通过随机量子比特表示或抽象的静态决策建模进行离线元启发式优化的传统量子启发优化范式 [3, 12] 不同,SPIN 彻底地将多智能体控制流水线重塑为一个实时的、由传感器驱动的控制回路。通过将局部多智能体交互视为复值张量核心子空间内动态互联的状态,该框架将结构化几何描述子非线性映射为抽象的行为权重,这些权重动态调节低层经典几何控制律,在优化集群协调的同时保持严格的运动学界限,并绕过了高延迟边缘学习机制 [14] 的必要性。

本文的核心贡献有三点:

1.  **张量网络策略压缩**:我们将集群的流体通信拓扑建模为时变马尔可夫随机场(MRF)。通过将局部互斥团簇的联合策略张量分解为开放边界条件矩阵乘积态(OBC-MPS)链(即张量链),我们将非局部依赖关系映射到一条压缩的线性流水线中。这严格将联合概率评估限制在线性复杂度 O(m·n·χ²) 内,使得多智能体状态跟踪在资源受限的边缘微控制器上变得高度可处理。
2.  **神经符号协调映射**:我们明确地将核心空间特征映射与动态高层行为修饰符解耦。智能体使用一个轻量级神经网络(φ_ω),该网络被配置为基元吸引子网络,经过离线预训练,将相对运动学映射到一个规范的中心搜索空间锚点。在运行时,网络参数保持冻结,以最大化边缘硬件上的样本效率。复杂多目标路由和局部化分散场是通过手工设计的几何运行时算子组合式引入的,这些算子动态调节网络的结构度量输出(ν),从而将原始吸引与环境驱动的行为适应分离开来。智能体无需运行缓慢的优化循环,而是通过应用 Radon-Nikodým 导数(dν/dμ)作为确定性的零样本重要性重加权滤波器,来即时转换其行为策略。
3.  **团簇感知的张量化协调**:为压缩局部多智能体协调而不枚举完整的联合策略表,该框架维护团簇级别的张量表示,其系数通过一个有界重加权算子更新,然后投影到可执行的经典运动权重上。在当前实现中,复值项出现在团簇级张量构建和边缘恢复过程中,而部署的智能体策略最终由重加权后的边缘分布驱动,而非持久的在线复状态演变。

本文的其余部分组织如下:第 2 节介绍了局部状态表示、张量压缩团簇因式分解以及跨共享智能体的重叠一致性约束的数学形式。第 3 节介绍了可执行实现,包括同步的 PettingZoo 兼容控制循环、离线感知预训练以及用于评估的仿真沙箱。第 4 节报告了系统评估,包括定性行为模式、重复试验总结以及确定性和学习基线的比较。第 5 节以对当前范围、局限性和未来方向的讨论作为结束。

## 2 方法论

### 2.1 局部状态空间与张量化协调映射

为保持每个智能体计算复杂度较低,我们定义了一个局部状态子空间,作为分配给单个无人机并通过张量网络压缩的全局集群状态的最小划分。每个无人机 i 维护一个局部潜在协调状态向量 |ψ_i⟩,作为潜在行为特征基 {|s₁⟩, |s₂⟩, ..., |sₙ⟩} 的集合,这些特征基由目标任务的事件抽象定义:

|ψ_i⟩ = Σ_{k=1}^{n} α_{i,k} |s_k⟩,    α_{i,k} ∈ C             (1)

其中系数 α_{i,k} 在张量化协调层内部以兼容复数的表示形式携带,而可执行的智能体策略则依赖于归一化的幅度和边缘化的团簇摘要,而非持久的智能体级别复数状态轨迹。目标激活概率通过平方幅度归一化获得:

P_i(s_k) = |α_{i,k}|²,  满足 Σ_{k=1}^{n} |α_{i,k}|² = 1     (2)

这些推导出的内部策略权重 P_i(s_k) 并非直接用于驱动执行器,而是作为高级符号调制系数。在执行层,智能体的可执行连续速度向量 v⃗_i(t) 通过对应于每个宏观行为的经典几何引导场的混合融合来计算:

v⃗_i(t) = Σ_{k=1}^{n} P_i(s_k) · g⃗_k(x⃗_i, W)               (3)

其中 g⃗_k 代表手工设计的低级经典几何控制律(例如,目标吸引向量或势垒势场),将智能体状态 x⃗_i 映射到环境工作空间 W。这种结构解耦确保了当集群级协调由压缩代数张量交互驱动时,低级运动学执行保持确定性的物理安全性和稳定性保证。

在当前实现中,复值表示应被理解为一种团簇内部张量化手段,而非持久的相位动力学控制器。相位敏感交叉项可能出现在团簇级 MPS 构建和边缘化过程中,但每个智能体维护的可执行策略是在有界重加权、边缘恢复并投影到实值动作分布之后产生的。因此,物理驱动依赖于重加权后的幅度和团簇一致的边缘分布,而非智能体级相位坐标的显式在线跟踪。这种设计使得运行时控制器保持轻量级,同时保留了局部协调结构的紧凑代数表示。

因此,SPIN 应被解释为一个结构化的协调层,而不是一个直接的低级飞行控制器。内部复值张量化状态本身并非执行器;相反,它充当了团簇级协调结构的紧凑表示。物理运动仍然是实值且有界的,但驱动该运动的权重首先经过一个局部多智能体代数协调阶段。在这个意义上,最终的驱动映射并没有丢弃内部的张量计算;而是在运动学层面实现了该计算的操作化。

为在不引入几何初始化先验或预暴露优势的情况下动态评估行为适应性,局部协调权重被初始化为均匀的最大熵先验:

|ψ_i(0)⟩ = (1/√n) Σ_{k=1}^{n} |s_k⟩                     (4)

这在进行任何传感器驱动的 Radon-Nikodým 过滤之前,为所有行为元素建立了一个严格的基线分布。这种均匀初始化确保了后续的集群协调模式完全从运行时环境交互中涌现,而非来自人为的预先条件设定。

### 2.2 张量压缩的马尔可夫随机场团簇

集群的通信拓扑被建模为一个无向、时变的马尔可夫随机场(MRF)G = (V, E),基于去中心化的自组织网络拓扑。当前的仿真原型并非将智能体限制于局部视线视觉感知,而是假设每个节点 V 接收表示同伴无人机和环境地标相对位置的共享相对坐标状态数组。这些数组在机载上聚合成局部网络坐标矩阵,使得集群能够动态形成局部化的、最大通信团簇 {C_A, C_B, ...} ⊂ G,而无需集中式基站或全局优化服务器。

为绕过多智能体联合动作空间固有的维度灾难(对于大小为 m 的团簇,跟踪标准联合概率张量呈指数级 O(n^m) 扩展),我们将联合团簇策略张量 |Ψ_C_A⟩ 分解为局部的矩阵乘积态(MPS)链(张量链分解):

|Ψ_C_A⟩ = Σ_{s₁,...,sₘ} A₁[s₁] A₂[s₂] ... Aₘ[sₘ] |s₁, s₂, ..., sₘ⟩ (5)

其中每个 A_i[s_i] 是一个局部张量核心。为优化边缘硬件上的快速实时收缩,我们强制执行开放边界条件(OBC)而非周期性循环矩阵:边界核心 A₁[s₁] 和 Aₘ[sₘ] 被明确约束为维度分别为 1×χ 和 χ×1 的行向量和列向量,而内部核心保持矩阵维度 χ×χ。这种开放边界链消除了迹追踪循环,并保证了线性评估成本。

### 2.3 部分迹一致性约束

在没有集中式协调器的情况下,全局集群一致性是通过利用重叠的 MRF 团簇作为局部化同步桥梁来实现的。如果单个智能体 i 同时位于重叠团簇 C_A 和 C_B 中,它便充当了状态传播的结构性链接。为防止系统性发散,该框架强制执行一个代数一致性约束,要求该智能体的局部边缘算子 ρ_i 在其所属的父团簇上下文中保持不变:

ρ_i = Tr_{\i} (|Ψ_A⟩⟨Ψ_A|) = Tr_{\i} (|Ψ_B⟩⟨Ψ_B|)        (6)

其中 Tr_{\i} 表示对除 i 之外所有其他变量的精确张量边缘化。

相似文章

SPIN:通过迭代导航实现工业任务的结构化LLM规划

Hugging Face Daily Papers

SPIN 是一个规划包装器,确保结构有效的有向无环图(DAG)规划,并使用基于前缀的执行控制来减少工业 LLM 代理系统中的任务步骤和工具调用,从而提高规划的有效性和效率。

从噪声到控制:Parameterized Diffusion Policies

arXiv cs.AI

本文介绍了参数化扩散策略(Parameterized Diffusion Policy, PDP)框架,该框架通过以低维潜在参数为条件,使扩散策略变得可控,从而实现无需重新训练即可进行平滑的行为插值和自适应。在仿真和真实机器人实验中,该方法在复杂的多模态机器人任务上展现了更优的性能。

Cosine Swarm

Product Hunt

Cosine Swarm 全新发布,通过并行 AI 智能体应对长周期、高复杂度的软件开发任务。

可扩展的约束多智能体强化学习:通过状态增强与一致性实现可分离动力学

arXiv cs.LG

本文提出了一种分布式方法,用于约束多智能体强化学习,该方法采用状态增强策略学习和对偶变量上的邻居间一致性,以在满足全局资源约束的同时实现智能体数量线性扩展。在智能电网需求响应上的实验表明,一致性协调对可行性至关重要:与集中式训练方法不同,它能够扩展到数千个智能体。

AgentJet:一个面向智能体强化学习的灵活群组训练框架

arXiv cs.AI

AgentJet 是一个面向大语言模型智能体强化学习的分布式群组训练框架,它将智能体运行与模型优化解耦,支持异构多智能体强化学习、多任务训练、容错以及实时代码迭代,训练速度提升1.5-10倍。该框架还引入了一个自动化研究系统,能够在大型集群上自主进行为期数天的强化学习研究。