驯服“僵尸”智能体：一种基于马尔可夫状态感知的弹性多智能体进化框架

arXiv cs.CL 2026/05/19 04:00 论文

multi-agent-systems llm markov-model state-aware resilience agent-revive graph-evolution

摘要

介绍了AgentRevive，一种基于马尔可夫状态感知的弹性多智能体协作框架，利用软状态转换（活跃、待命、终止）来防止过早剪枝可能恢复的智能体，从而在提升推理和领域任务性能的同时减少token消耗。

arXiv:2605.17348v1 公告类型：新摘要：最新进展表明，基于大语言模型的多智能体系统在复杂任务上展现了卓越的协作能力。为了提高整体效率，现有方法通常依赖智能体之间的激进图进化（例如节点或边剪枝），这可能会因幻觉或临时知识缺口等短暂问题而过早丢弃有价值的智能体。然而，这种硬剪枝忽略了“僵尸”智能体在后续讨论轮次中恢复并做出贡献的可能性。本文提出AgentRevive，一种用于弹性多智能体进化的马尔可夫状态感知框架。我们的方法通过软状态转换动态管理智能体协作，通过两个关键组件实现：（1）状态感知策略学习：智能体状态分为“活跃”、“待命”和“终止”三种状态，根据智能体记忆选择性传播消息。该策略利用风险估计器评估幻觉风险来优化智能体状态转换，在保护有价值节点的同时最小化不可靠节点的影响。（2）状态感知边优化：根据策略学习到的状态剪枝子图边，永久移除“终止”节点，保留“待命”节点用于后续轮次以评估其潜在的未来贡献。在通用推理、领域特定和幻觉挑战任务上的大量实验表明，我们的方法始终优于强基线，并通过状态感知智能体调度显著降低了token消耗。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:39

# 驯服“僵尸”智能体：一种面向弹性多智能体演化的马尔可夫状态感知框架
来源：https://arxiv.org/html/2605.17348
Taolin Zhang¹, Pukun Zhao², Qizhou Chen⁴, Jiuheng Wan¹, Chen Chen², Xiaofeng He⁴, Chengyu Wang³, Richang Hong¹¹¹¹脚注:1 ¹合肥工业大学计算机与信息科学学院 ²广东财经大学 ³阿里巴巴集团 ⁴华东师范大学
[email protected], [email protected]

###### 摘要

基于大语言模型（LLM）的多智能体系统在复杂任务中展现了卓越的协作能力。为了提高整体效率，现有方法通常依赖于智能体间激进的图演化（例如，节点或边的剪枝），这有可能因幻觉或临时知识空白等短暂问题而过早丢弃有价值的智能体。然而，这种硬剪枝忽视了“僵尸”智能体在后续讨论轮次中恢复并做出贡献的可能性。在本文中，我们提出 **AgentRevive**，一个用于弹性多智能体演化的马尔可夫状态感知框架。我们的方法通过软状态转换动态管理智能体协作，主要通过两个关键组件实现：(1) **状态感知策略学习**：将智能体状态划分为“活跃”、“待命”和“终止”状态，基于智能体记忆选择性传播消息。该策略采用风险评估器，通过评估幻觉风险来优化智能体状态转换，最小化不可靠节点的影响，同时保护有价值的节点。(2) **状态感知边优化**：根据从策略学到的状态剪枝子图边，永久移除“终止”节点，并保留“待命”节点用于后续轮次，以评估其未来潜在贡献。在通用推理、领域特定和幻觉挑战任务上的大量实验表明，我们的方法在强基线方法上持续取得更优表现，并通过状态感知智能体调度显著降低了令牌消耗。

驯服“僵尸”智能体：一种面向弹性多智能体演化的马尔可夫状态感知框架

Taolin Zhang¹, Pukun Zhao², Qizhou Chen⁴, Jiuheng Wan¹, Chen Chen², Xiaofeng He⁴, Chengyu Wang³††感谢：C. Wang 和 R. Hong 为共同通讯作者。，Richang Hong¹¹¹¹脚注:1 ¹合肥工业大学计算机与信息科学学院 ²广东财经大学 ³阿里巴巴集团 ⁴华东师范大学
[email protected], [email protected]

参见图注图 1：我们的 AgentRevive 框架与强训练范式在智能体图拓扑演化上的比较。（彩色版本最佳。）

## 1 引言

基于大语言模型（LLM）的多智能体系统（MAS）已成为解决复杂任务的一种变革性范式，通过协作推理和规划展现出优于单智能体方法的性能 [Linet al. (2025a)](https://arxiv.org/html/2605.17348#bib.bib1)；[Zhanget al. (2025d)](https://arxiv.org/html/2605.17348#bib.bib2)。MAS 的有效性关键取决于其智能体间的通信拓扑，该拓扑控制着智能体间信息的交换和同化 [Guoet al. (2024)](https://arxiv.org/html/2605.17348#bib.bib3)；[Yanet al. (2025)](https://arxiv.org/html/2605.17348#bib.bib4)。因此，最近的研究聚焦于优化通信结构，以同时提升性能和效率 [Zhanget al. (2025a)](https://arxiv.org/html/2605.17348#bib.bib6)；[Wanget al. (2025a)](https://arxiv.org/html/2605.17348#bib.bib8), [b](https://arxiv.org/html/2605.17348#bib.bib7)。

解决 MAS 中通信冗余问题的方法大致可分为三种范式：(1) **普通型 MAS**。这些系统依赖手动设计的通信模板，如链式、树状或全连接图 [Zhanget al. (2024b)](https://arxiv.org/html/2605.17348#bib.bib9)；[Zhugeet al. (2024)](https://arxiv.org/html/2605.17348#bib.bib10)；[Ganet al. (2025)](https://arxiv.org/html/2605.17348#bib.bib15)。虽然实现简单，但固定的拓扑结构缺乏适应性，导致智能体交互僵化且效率低下，无法根据任务特定需求动态调整。(2) **基于图剪枝的 MAS**。该范式将智能体交互建模为图结构，并应用拓扑感知学习来剪枝冗余的边或节点 [Wanget al. (2025b)](https://arxiv.org/html/2605.17348#bib.bib7)；[Zhanget al. (2025a)](https://arxiv.org/html/2605.17348#bib.bib6)；[Boyiet al. (2025)](https://arxiv.org/html/2605.17348#bib.bib14)。然而，这种“硬剪枝”策略不可逆地移除节点和边，可能会丢弃有用但暂时不活跃的“僵尸”智能体。因此，最终的拓扑结构可能遭受性能损失，因为即使任务上下文发生变化，被剪枝的元素也无法重新激活。(3) **图生成型 MAS**。最近的工作探索了自回归、动态的智能体图生成，通过顺序生成智能体角色和连接来从头构建协作图 [Wanget al. (2025a)](https://arxiv.org/html/2605.17348#bib.bib8)；[Liet al. (2025)](https://arxiv.org/html/2605.17348#bib.bib11)。虽然这一范式增加了灵活性并避免了初始冗余，但它以纯前向生成的方式运行，未考虑全局拓扑状态 [Qianet al. (2025)](https://arxiv.org/html/2605.17348#bib.bib12)。因此，它可能无法重新评估或整合那些随着任务条件演变而可能变得相关的先前被排除的智能体，限制了其优化通信结构的能力。如图 1 (https://arxiv.org/html/2605.17348#S0.F1) 所示，与上述三种做出永久性剪枝决策的范式不同，我们的方法（底部）允许在后续轮次中重新激活智能体，例如“第 3 轮”。

我们介绍 **AgentRevive**，一个用于弹性多智能体演化的马尔可夫状态感知框架。我们的核心洞察是将智能体协作视为一个软的、状态感知的过程，而非依赖硬剪枝决策。AgentRevive 包含两个关键组件：

- **状态感知策略学习**：学习每个智能体节点在通信轮次间的最优状态转换。我们将智能体生命周期建模为三种状态：“活跃”、“待命”和“终止”。每轮的状态转换取决于智能体的先前状态、自身响应以及来自相邻智能体的消息。为了在此马尔可夫决策过程（MDP）中稳定策略学习，我们用一个风险评估器对常规奖励信号（联合考虑任务性能和令牌效率）进行增强。它惩罚那些保留了容易产生幻觉或矛盾响应的智能体的策略 [Cemriet al. (2025)](https://arxiv.org/html/2605.17348#bib.bib16)；[Zhanget al. (2025c)](https://arxiv.org/html/2605.17348#bib.bib17)，鼓励动态暂停不可靠节点而无需永久移除。
- **状态感知边优化**：根据从策略学到的智能体状态剪枝子图边，永久移除“终止”节点，并在后续轮次中保留“待命”节点，以观察其对当前任务的潜在贡献。具体来说，它基于每个智能体在多次推理中的存活率构建一个二进制节点掩码，应用于空间边和时间边邻接矩阵。这产生了一个稀疏但有效的通信图，平衡了任务性能和令牌效率。

在通用推理、领域特定和幻觉基准上的实验表明，与基于强剪枝和动态自回归的基线方法相比，AgentRevive 在任务平均性能上提升了 +2.33%，同时通过自适应智能体状态管理降低了 15% 的令牌开销。

## 2 相关工作

### 2.1 普通型智能体协作

早期工作通过结构化提示技术（如思维链（CoT）[Weiet al. (2022)](https://arxiv.org/html/2605.17348#bib.bib18) 和自一致性（SC）[Wanget al. (2023)](https://arxiv.org/html/2605.17348#bib.bib34)）展示了单个 LLM 智能体在推理和规划中的有效性。随后的工作表明，MAS 可以通过利用从多数投票 [Chenet al. (2024a)](https://arxiv.org/html/2605.17348#bib.bib35) 到复杂交互机制 [Chenet al. (2023)](https://arxiv.org/html/2605.17348#bib.bib36) 等技术，利用专门的技能来超越单智能体系统。最近的研究调查了各种预定义的通信拓扑：(1) **非交互式**：独立智能体运行而不交互，例如 LATM [Zhanget al. (2024a)](https://arxiv.org/html/2605.17348#bib.bib37), LLM-Blender [Jianget al. (2023)](https://arxiv.org/html/2605.17348#bib.bib38) 和 LLM-Debate [Duet al. (2024)](https://arxiv.org/html/2605.17348#bib.bib39)；(2) **链式**：通过连接的智能体进行顺序信息流，如在 ChatDev [Qianet al. (2024)](https://arxiv.org/html/2605.17348#bib.bib40)，MetaGPT [Honget al. (2024)](https://arxiv.org/html/2605.17348#bib.bib41) 和 L2MAC [Holtet al. (2023)](https://arxiv.org/html/2605.17348#bib.bib42) 中实现；(3) **星型**：通过一个指挥智能体进行集中协调，如 AutoGen [Wuet al. (2023)](https://arxiv.org/html/2605.17348#bib.bib43) 所示；(4) **树型**：具有根级管理的层次化组织，例如 SoA [Ishibashi and Nishimura (2024)](https://arxiv.org/html/2605.17348#bib.bib45)。虽然这些预定义模板促进了有效的 MAS 交互，但它们本质上缺乏灵活性和可扩展性。

### 2.2 作为图的 MAS 拓扑

为了提高适应性，最近的方法探索了从任务数据中学习 MAS 的动态通信图。GPTSwarm [Zhugeet al. (2024)](https://arxiv.org/html/2605.17348#bib.bib10) 将通过强化学习优化的 DAG 拓扑参数化以进行智能体交互。DSPy [Khattabet al. (2024)](https://arxiv.org/html/2605.17348#bib.bib47) 是一种编程模型，它将 LLM 流水线抽象为文本转换图。DyLAN [Liuet al. (2024)](https://arxiv.org/html/2605.17348#bib.bib50) 动态选择智能体团队进行任务特定协作。EvoMAC [Hu et al. (2025)](https://arxiv.org/html/2605.17348#bib.bib51) 采用环境反馈和文本反向传播进行网络更新。然而，这些模型无法解决由查询自适应拓扑生成导致的通信图结构冗余。基于图剪枝的方法 [Wanget al. (2025b)](https://arxiv.org/html/2605.17348#bib.bib7)；[Zhanget al. (2025a)](https://arxiv.org/html/2605.17348#bib.bib6)；[Boyiet al. (2025)](https://arxiv.org/html/2605.17348#bib.bib14) 在动态拓扑学习期间，根据查询特定特征移除图中时间和空间维度上的冗余节点和边，最终形成一个用于回答查询的自适应稀疏拓扑。此外，自回归动态图生成方法 [Jiet al. (2024)](https://arxiv.org/html/2605.17348#bib.bib53)；[Wanget al. (2025a)](https://arxiv.org/html/2605.17348#bib.bib8)；[Liet al. (2025)](https://arxiv.org/html/2605.17348#bib.bib11) 使得多智能体流水线能够从头动态生成决策轨迹，而不是从初始图中进行剪枝。

## 3 问题形式化

在基于 LLM 的多智能体系统（MAS）中，智能体可能暂时进入“僵尸”状态，即由幻觉或知识空白引起的故障模式 [Linet al. (2025b)](https://arxiv.org/html/2605.17348#bib.bib48)。先前的剪枝方法 [Zhanget al. (2025a)](https://arxiv.org/html/2605.17348#bib.bib6)；[Boyiet al. (2025)](https://arxiv.org/html/2605.17348#bib.bib14) 将此类智能体视为冗余并永久移除。然而，如果这些智能体在后续轮次中恢复，它们可能在后期阶段做出关键贡献。¹¹¹出于篇幅限制，我们建议读者参考附录 A (https://arxiv.org/html/2605.17348#A1) 以获取符号和基本任务形式化描述。

为了应对这一问题，我们提出了一种马尔可夫状态感知协作图框架，该框架在通信轮次间动态管理智能体状态。具体来说，我们将 MAS 建模为一个状态感知协作图 \(\mathcal{G}=(\mathcal{V},\mathcal{E}^{\mathcal{T}},\mathcal{E}^{\mathcal{S}},\mathbf{S})\)，其中 \(\mathbf{S}^{(t)}=\{\mathit{s}_{1}^{(t)},\mathit{s}_{2}^{(t)},\ldots,\mathit{s}_{N}^{(t)}\}\) 表示第 \(t\) 轮时每个智能体的状态，且 \(\mathit{s}_{i}^{(t)}\in\{\texttt{``Active''},\texttt{``Standby''},\texttt{``Terminated''}\}\)。每个智能体的状态转换由一个随机策略控制：

\[
\mathit{s}_{i}^{(t+1)}\sim\pi\left(\cdot\mid\mathit{s}_{i}^{(t)},h^{(t)},m_{\mathcal{T}}^{(t+1)},m_{\mathcal{S}}^{(t+1)}\right) \tag{1}
\]

其中 \(h^{(t)}\) 表示交互历史。

然后，我们将第 \(t\) 轮策略状态变化后的有效子图定义为 \(\mathcal{G}_{\text{eff}}^{(t)}=(\mathcal{V}_{\text{eff}}^{(t)},\mathcal{E}_{\text{eff}}^{(t)})\)。有效的智能体节点为：

\[
\mathcal{V}_{\text{eff}}^{(t)}=\{\mathit{v}_{i}\mid\mathit{s}_{i}^{(t)}\in\{\texttt{``Active''},\texttt{``Standby''}\}\} \tag{2}
\]

其中 \(\mathcal{E}_{\text{eff}}^{(t)}\) 包含 \(\mathcal{V}_{\text{eff}}^{(t)}\) 中智能体之间的边。接下来，我们通过纳入智能体状态来重新定义通信冗余 [Zhanget al. (2025a)](https://arxiv.org/html/2605.17348#bib.bib6)。

**定义 1（状态感知冗余）**。给定一个状态感知协作图 \(\mathcal{G}=(\mathcal{V},\mathcal{E}^{\mathcal{T}},\mathcal{E}^{\mathcal{S}},\mathbf{S})\)，如果满足以下条件，则智能体 \(\mathit{v}_{i}\) 在第 \(t\) 轮被视为冗余：

\[
\mathit{s}_{i}^{(t)}=\texttt{``Terminated''}\quad\text{and}\quad\phi(\mathcal{G}_{\text{eff}}^{(t)})\geq\phi(\mathcal{G}) \tag{3}
\]

其中 \(\phi(\cdot)\) 是一个衡量任务性能的效用函数。状态感知剪枝的目标是找到一个策略 \(\pi\)，在保持性能的同时最小化有效状态感知图的大小：

\[
\min_{\pi}\sum_{t=1}^{T}\left\|\mathcal{G}_{\text{eff}}^{(t)}\right\|,\quad\text{s.t.}\;\forall t\quad\|\phi(\mathcal{G}_{\text{eff}}^{(t)})-\phi(\mathcal{G})\|\leq\epsilon. \tag{4}
\]

表 1 (https://arxiv.org/html/2605.17348#S3.T1) 总结了我们提出的马尔可夫状态感知框架相对于传统图方法的独特优势。

| 方法 | 任务自适应 | 可变节点大小 | 灵活状态 |
| :--- | :---: | :---: | :---: |
| 手动设计 | ✗ | ✗ | ✗ |
| AP [Zhanget al. (2025a)](https://arxiv.org/html/2605.17348#bib.bib6) | ✓ | ✗ | ✗ |
| G-D [Zhanget al. (2025b)](https://arxiv.org/html/2605.17348#bib.bib46) | ✓ | ✗ | ✗ |
| AD [Wanget al. (2025b)](https://arxiv.org/html/2605.17348#bib.bib7) | ✓ | ✓ | ✗ |
| ARG-D [Liet al. (2025)](https://arxiv.org/html/2605.17348#bib.bib11) | ✓ | ✓ | ✗ |
| **AgentRevive (Ours)** | ✓ | ✓ | ✓ |

表 1：不同 MAS 范式的比较。✓ 和 ✗ 分别表示完全支持和不支持每种能力。

参见图注图 2：AgentRevive 概述。我们的框架主要由两个阶段组成。

驯服“僵尸”智能体：一种基于马尔可夫状态感知的弹性多智能体进化框架

相似文章

面向长周期智能体的主动记忆（阅读时长16分钟）

递归多智能体系统

在关键时刻记住：面向长周期代理的前瞻性记忆代理

记住，不要重读：用于令牌高效自主实验的有状态ReAct智能体

如何管理代理记忆而不让其变成杂物抽屉？

提交意见反馈