超越标记：基于LLM的多智能体系统中潜在通信的统一框架

arXiv cs.CL 2026/06/05 04:00 论文

latent-communication multi-agent llm embeddings hidden-states kv-cache framework

摘要

本文提出了一个基于LLM的多智能体系统中潜在通信的统一框架，按照通信信息内容、发送者-接收者对位和融合技术对方法进行分类，并回顾了2024至2026年间的十八种代表性方法。

arXiv:2606.05711v1 公告类型：新摘要：基于大语言模型（LLM）的多智能体系统已成为处理复杂推理、规划和工具使用任务的主流范式。此类系统中占主导地位的通信协议是自然语言：智能体逐词交换消息，将其内部推理过程显式化，以便同伴能够阅读、验证和回应。尽管这种协议方便且可解释，但它存在三个结构性缺陷——高推理成本、离散化过程中的不可逆信息丢失以及自然语言的歧义与冗余。因此，越来越多的研究探索了一种替代协议——潜在通信——即智能体直接交换连续表示（嵌入、隐藏状态或KV缓存），绕过文本生成的瓶颈。本文提出了一个用于组织潜在通信领域快速扩展文献的统一框架。我们沿三个正交维度分析现有方法：（1）通信的信息内容是什么（嵌入、隐藏状态、KV缓存或其他连续状态）；（2）采用何种发送者-接收者对位（潜在空间对齐和层对齐）；（3）如何将通信信息融合到接收者中（拼接、前置、数学运算、交叉注意力或缓存恢复）。在此三维框架下，我们系统分类了2024至2026年间提出的十八种代表性方法，识别了五种主要设计模式，并揭示了一系列未解决的挑战——包括跨架构对齐、潜在通道安全、边缘部署的压缩以及潜在通信与潜在思维链之间的关系。我们希望该框架既能降低新研究者的入门门槛，也能为比较未来工作提供一套通用术语。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:07

# 基于大语言模型的多智能体系统中潜在通信的统一框架
来源：https://arxiv.org/html/2606.05711
###### 摘要

基于大语言模型（LLM）构建的多智能体系统已成为处理复杂推理、规划和工具使用任务的主流范式。此类系统中占主导地位的通信协议是*自然语言*：智能体逐 token 交换消息，将其内部推理过程以文字形式表述出来，以便同伴读取、验证和回复。这种协议虽然方便且可解释，但存在三个结构性缺陷——推理成本高、离散化过程中信息不可逆丢失、以及自然语言固有的歧义性和冗余性。因此，越来越多的工作探索另一种协议——*潜在通信*——在这种协议中，智能体直接交换连续表示（嵌入、隐状态或 KV 缓存），绕过了文本生成的瓶颈。本文提出了一个*统一框架*，用于组织快速增长的潜在通信文献。我们沿着三个正交轴分析现有方法：(1) 通信的*信息内容*（*嵌入*、*隐状态*、*KV 缓存*或其他连续状态）；(2) *发送者-接收者对位方式*（*潜在空间对齐*和*层级对齐*）；以及 (3) *通信信息如何融合到接收者*（*拼接*、*前置*、*数学运算*、*交叉注意力*或*缓存恢复*）。在此三轴框架下，我们系统地对 2024 年至 2026 年间提出的十八种代表性方法进行分类，识别出五种主要设计模式，并揭示一系列开放挑战——包括跨架构对齐、潜在通道安全性、边缘部署压缩、以及*潜在通信*与*潜在思维链*之间的关系。我们希望本框架既能降低新研究者的入门门槛，也为比较未来工作提供一套通用术语。

*关键词*潜在通信⋅多智能体 LLMs⋅KV 缓存⋅隐状态⋅嵌入⋅智能体通信⋅综述

## 1. 引言

基于大语言模型（LLM）构建的多智能体系统已迅速成为处理复杂推理、规划、代码生成、科学问答和工具编排的主力工具（Wu 等人，2023 (https://arxiv.org/html/2606.05711#bib.bib1)；Hong 等人，2023 (https://arxiv.org/html/2606.05711#bib.bib2)；Li 等人，2023 (https://arxiv.org/html/2606.05711#bib.bib3)；Liu 等人，2026b (https://arxiv.org/html/2606.05711#bib.bib30)）。在典型架构中，数个专门的 LLM 智能体——每个通常作为独立的模型调用实例，并配有自身角色提示——通过交换*自然语言*消息进行协作。规划者用文本提出策略；评论者阅读提案并用文本回复；编码者用文本编辑计划；如此循环。结果是产生了可见、可检查、人类可读的通信痕迹，同时充当审计日志和调试界面。这种系统在智能体之间划分复杂任务的方式——*哪个*子任务分配给*哪个*智能体——本身就是一个重要的设计选择，近期工作已经开始实证研究自适应的任务分解策略（Liu 等人，2025 (https://arxiv.org/html/2606.05711#bib.bib29)）。

尽管取得了成功，但*纯文本*通信协议正受到越来越多的质疑。三个结构性缺陷尤为突出：

1. 推理成本。每条消息迫使发送者将其内部推理*解码*为 token 序列，并迫使接收者将该序列*重新编码*回表示。对于一个有 \(L\) 层、词汇表大小 \(V\)、消息长度为 \(T\) 个 token 的模型，每条消息的额外开销为 \(\mathcal{O}(L \cdot T \cdot d)\) 个 FLOPs，这还不包括智能体自身的推理。
2. 离散化过程中的信息损失。发送者的隐状态——一个高维向量，总结了其整个上下文——必须*压缩*为从词汇表 \(V\) 中抽取的单个 token。隐状态与所选 token 之间的互信息上界为 \(\log_2 V\) 比特，在现代 tokenizer 中通常 \(\leq 15\) 比特，而隐状态本身承载着数万比特的信息。替代推理路径、经过校准的替代方案置信度以及细微的语义区分被完全丢弃。
3. 自然语言的冗余性和歧义性。生成的文本针对语言流畅性而非任务相关信息密度进行优化。习语、模糊措辞和含糊指称增加了开销；关于角色分配或背景知识的分歧可能导致整个消息无法恢复。

作为回应，一条新的研究路线——统称为*潜在通信*——已经涌现。其核心思想是让智能体直接交换其连续的内部表示：输入层的嵌入、中间层的隐状态或注意力机制中的键值（KV）缓存。通过绕过语言瓶颈，潜在通信可以保留更多信息，节省推理时间，并避免自然语言的失败模式。其缺点是难以解释：该通道对人类来说是不透明的，更难以检查、调试或对齐。

该领域发展迅猛。随附的资源库 *Awesome-Latent-Communication* 已追踪超过十五种不同方法，设计选择的多样性令人瞩目：有些方法传输嵌入，有些传输隐状态，还有的传输 KV 缓存。有些方法将发送者的最后一层与接收者的第一层对齐；有些则对齐所有层。有些方法通过拼接融合信息；有些则通过前置、加法或学习的交叉注意力。有些方法无需训练；有些则需要蒸馏。因此，进入该领域的新研究者面对的是一个碎片化的格局，缺乏共享的词汇。

##### 贡献。

本文引入了一个*统一框架*，该框架沿三个正交轴组织文献，并利用它系统地对十八个代表性工作进行分类。具体来说：

- • 我们提出了一个三轴分解——*内容*（通信信息的类型）、*对象*（发送者-接收者对位方式）和*方式*（信息融合策略）——它唯一地确定了任何潜在通信协议的设计空间。
- • 在此框架下，我们分析了 2024 年至 2026 年间发表的十八种方法，总结了它们的关键创新、优势和局限性，并将每种方法归入统一的比较表格。
- • 我们提取了五个关于设计权衡的*可推广要点*（例如，“KV 缓存比隐状态携带更多信息，但对架构的依赖性更强”），我们认为这些要点将指导未来的方法设计。
- • 我们确定了六个开放问题——包括跨架构对齐、潜在通道安全性以及*潜在通信*与*潜在思维链*的统一——我们预期这些将塑造下一代研究。

##### 组织结构。

本文其余部分组织如下。第 2 节 (https://arxiv.org/html/2606.05711#S2) 介绍预备概念。第 3 节 (https://arxiv.org/html/2606.05711#S3) 通过量化自然语言的局限性来*论证潜在通信的必要性*。第 4 节 (https://arxiv.org/html/2606.05711#S4) 沿着内容/对象/方式三个轴提出统一框架。第 5 节 (https://arxiv.org/html/2606.05711#S5) 在该框架下详细阐述十八个代表性方法。第 6 节 (https://arxiv.org/html/2606.05711#S6) 讨论占主导地位的*免训练*实现范式。第 7 节 (https://arxiv.org/html/2606.05711#S7) 综述实证结果。第 8 节 (https://arxiv.org/html/2606.05711#S8) 阐述开放问题。第 9 节 (https://arxiv.org/html/2606.05711#S9) 将潜在通信与相邻研究领域联系起来。第 10 节 (https://arxiv.org/html/2606.05711#S10) 总结。

## 2. 背景与预备知识

本节确定本文使用的符号和术语。

### 2.1 多智能体 LLM 系统

一个*多智能体 LLM 系统*（MAS）由 \(N\) 个 LLM 智能体 \(\mathcal{A}=\{A_{1},A_{2},\ldots,A_{N}\}\) 组成，每个智能体配备角色特定的系统提示、可选的工具访问权限以及一个通信通道。在每一步，智能体 \(A_{i}\)（*发送者*）产生一条消息，该消息被传递给一个或多个同伴智能体（*接收者*）。一个显式或隐式的控制器决定发言顺序。通信通道是本文的重点：经典系统使用*自然语言通道*（第 2.2 节 (https://arxiv.org/html/2606.05711#S2.SS2)）；本文调查的方法使用*潜在通道*（第 2.2 节 (https://arxiv.org/html/2606.05711#S2.SS2)）。

### 2.2 自然语言通信与潜在通信

- • **自然语言通信**（NL-Comm）。发送者通过从词汇表 \(\mathcal{V}\) 中采样生成离散 token 序列 \(y=(y_{1},y_{2},\ldots,y_{T})\)。接收者将该 token 序列*重新编码*到其自身的嵌入空间。两步流程——*发送者解码 → token 传输 → 接收者编码*——即我们所称的*语言瓶颈*。
- • **潜在通信**（Latent-Comm）。发送者暴露其内部连续表示之一——输入嵌入、特定层/token 的隐状态或 KV 缓存——而接收者将此表示注入其自身的计算中，*无需经过词汇表进行往返*。

图 1 (https://arxiv.org/html/2606.05711#S2.F1) 展示了自然语言和潜在通信管道的高级比较，包括（*左*）Transformer 块及其可访问的中间表示，（*右上*）token 级与隐状态推理信息密度的比较，以及（*右下*）产生逐 token KV 缓存的预填充/解码阶段。

### 2.3 预填充与解码

LLM 推理分为两个阶段，我们将反复提及：

- • **预填充阶段**。给定提示 \(x=(x_{1},\ldots,x_{T})\)，模型并行处理整个序列并产生第一个输出 token。在预填充期间计算的所有键值对都存储在 KV 缓存中。
- • **解码阶段**。模型一次生成一个 token。在每一步 \(t>T\)，它获取先前生成的 token \(y_{t-1}\) 以及来自更早步骤的缓存 KV，并产生一个新的 token \(y_{t}\)（以及一个新的 KV 条目）。

这种区分对于潜在通信很重要，因为两个阶段可用的*内部状态类型*不同。在预填充期间，发送者可以访问*每个*输入 token 的逐 token 隐状态和 KV 缓存。在解码期间，发送者只能访问最近生成 token 的隐状态以及不断增长的 KV 缓存。

### 2.4 嵌入、隐状态、KV 缓存、激活

我们采用以下精确定义，本文后续部分将依赖这些定义：

**嵌入**。一个连续向量 \(\mathbf{e}_{i}\in \mathbb{R}^{d}\)，将离散输入符号 \(x_{i}\) 映射到密集语义空间。嵌入是第一个 Transformer 块的*输入*。

**隐状态**。一个完整 Transformer 块的输出，记为 \(\mathbf{h}_{i}^{(\ell)}\in \mathbb{R}^{d}\)，对应 token \(i\) 在第 \(\ell\) 层。隐状态是相邻 Transformer 块之间传递的*稳定、逐层语义表示*。当接收者消费一个隐状态时，它通常接收中间层的某个输出。

**KV 缓存**。在预填充期间，每个自注意力层中计算的逐 token 键张量和值张量的集合，记为 \(\mathcal{KV}=\{(\mathbf{k}_{i}^{(\ell)},\mathbf{v}_{i}^{(\ell)})_{i=1}^{T}\}_{\ell=1}^{L}\)。KV 缓存是模型为了高效解码而重用的内容。

**激活**。一个更通用的术语：任何子模块（注意力投影、前馈变换等）的中间输出。*隐状态是激活的一个子集，作为稳定的逐层表示*。传输“激活”的方法通常传输比传输“隐状态”的方法更细粒度的量（例如，单个注意力头的输出）。

这些量在 Transformer 块中的示意图包含在图 1 的左面板中。

### 2.5 为何是现在？

潜在通信直到最近才变得实用。大约在 2023–2024 年，三个促成趋势汇聚在一起：

1. 大规模开源权重 LLM。将发送者的隐状态管道传输到接收者的前向传播中的方法需要对两个模型具有*白盒*访问权限。Llama、Qwen、Mistral 及类似系列模型的发布使得此类访问变得普遍。
2. KV 缓存工程。KV 缓存已从实现细节转变为一类优化目标，拥有丰富的压缩、共享和卸载基础设施。传输 KV 缓存的方法可以借助这些基础设施。
3. 多智能体框架。像 LangGraph、AutoGen、CrewAI 和 MetaGPT 这样的框架降低了编排多个 LLM 智能体的成本，使得*潜在通道*本身成为有意义的研究对象，而不仅仅是一个新奇事物。

## 3. 潜在通信的论据

在深入框架之前，我们先阐明支持*和反对*潜在通信的论据。我们认为，权衡取决于上下文：当 (a) 智能体紧密耦合，(b) 自然语言开销成本占主导地位，以及 (c) 通道足够可解释以进行下游调试时，潜在通信更为可取。

### 3.1 自然语言通信的局限性

#### 3.1.1 高推理成本

考虑一个两智能体系统，其中智能体 \(A_{1}\) 产生一条 \(T\) token 的消息给智能体 \(A_{2}\)。总成本为：

- • \(A_{1}\) 解码 \(T\) 个 token：\(\mathcal{O}(L \cdot T \cdot d)\) 个 FLOPs，其中 \(L\) 是层数，\(d\) 是隐藏维度。KV 缓存读/写是主导项。
- • \(A_{2}\) 重新编码 \(T\) 个 token：预填充阶段同样需要 \(\mathcal{O}(L \cdot T \cdot d)\) 个 FLOPs。
- • 逐 token 传输本身：可忽略不计。

因此，自然语言通信的*开销*大约是生成消息成本的 \(2\times\)，这还不算 \(A_{2}\) 自身的推理。潜在通信可以将此减少为一次嵌入/隐状态/KV 缓存传输，接收者*无需重新编码*即可注入。

#### 3.1.2 离散化过程中的信息损失

管道为

\[
\mathbf{h}_{\text{context}}\xrightarrow{\text{linear}}\mathbf{z}\in \mathbb{R}^{V}\xrightarrow{\text{sample}}y\in \mathcal{V},
\]

其中 \(\mathbf{h}_{\text{context}}\) 是发送者的高维隐状态，\(\mathbf{z}\) 是词汇表上的 logit 向量，\(y\) 是被采样的 token。互信息 \(I(\mathbf{h}_{\text{context}};y)\) 的上界为 \(H(y)\leq \log_2 |\mathcal{V}| \approx 15{\text{--}}17\) 比特。与此同时，\(\mathbf{h}_{\text{context}}\) 本身通常存在于 \(\mathbb{R}^{d}\) 中，\(d \geq 4096\)，并以 32 位浮点数参数化，因此其*原始*表示能力超过 \(40{,}000\) 比特。因此压缩因子约为 \(10^3\) 到 \(10^{4}\)。

具体来说：一个隐状态不仅编码*接下来要说哪个*token，还

超越标记：基于LLM的多智能体系统中潜在通信的统一框架

相似文章

当大型语言模型发展语言：用于高效多智能体推理的符号通信

超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自我进化综述

见我所见，知我所想：异构智能体间的密集潜在通信

多智能体LLMs未能相互探索

潜在智能体：一种内化多智能体辩论的后训练方法

提交意见反馈