@FinanceYF5: 论文:
摘要
本文介绍了 LatentMAS,一种用于多智能体系统的无需训练框架,使大语言模型智能体能够通过共享潜在工作记忆在连续潜在空间中直接协作,实现了高达 14.6% 的准确率提升和 4 倍的推理速度提升,同时将 Token 使用量减少超过 70%。
查看缓存全文
缓存时间: 2026/06/25 07:15
论文:https://t.co/sP6yk2SU64
多智能体系统中的潜在协作
来源:https://arxiv.org/html/2511.20639 Ruizhong QiuGaotian LiXiyuan YangKatherine TieuPan LuKe ShenHanghang TongYejin ChoiJingrui HeJames ZouMengdi WangLing Yang
摘要
多智能体系统将大型语言模型从独立的单模型推理扩展为协同的系统级智能。虽然现有的LLM智能体依赖基于文本的媒介进行推理和通信,我们更进一步,使模型能够在连续的潜在空间内直接协作。我们引入了LatentMAS,一个端到端的免训练框架,使LLM智能体之间能够实现纯潜在协作。在LatentMAS中,每个智能体首先通过最后一层的隐藏嵌入(而非文本)自回归生成潜在思考。然后,一个共享的潜在工作记忆保存并传递每个智能体的内部表示和潜在思考,确保无损信息交换,无需重新编码。我们提供了详细的理论分析,表明LatentMAS比基于标准文本的MAS具有更高的表达能力和无损信息保持能力,同时总体复杂度更低。此外,跨9个综合基准(涵盖数学与科学推理、常识理解和代码生成)的实证评估表明,LatentMAS优于先进的单智能体和基于文本的MAS基线,准确率最高提升14.6%,输出令牌使用量减少70.8%-83.7%,端到端推理速度提升4倍至4.3倍。
机器学习,ICML
![[未标注图片]](https://arxiv.org/html/2511.20639v3/x1.png)
图1:在层次化MAS设置下,LatentMAS在(i)任务准确率(%)、(ii)推理速度(时间(秒)/运行)和(iii)令牌使用量(每令牌)方面,跨9个基准测试和3种LLM模型规模的表现。与单模型和基于文本的MAS相比,LatentMAS持续提升系统级推理准确率,同时大幅降低计算开销。
1 引言
模型协作成为智能体AI时代系统级智能的基础(Acharya et al.,2025 (https://arxiv.org/html/2511.20639#bib.bib1))。近期多智能体系统的进展(Wu et al.,2024 (https://arxiv.org/html/2511.20639#bib.bib51); Hu et al.,2025 (https://arxiv.org/html/2511.20639#bib.bib20))催生了一种范式转变:从孤立的、以模型为中心的推理转向多个交互模型之间的协作努力。其中,基于大型语言模型的MAS已被广泛应用于各种下游应用,包括协作式数学与科学推理(Pezeshkpour et al.,2024 (https://arxiv.org/html/2511.20639#bib.bib38); Zhou et al.,2025 (https://arxiv.org/html/2511.20639#bib.bib67))、自动化代码生成(Yang et al.,2024b (https://arxiv.org/html/2511.20639#bib.bib55); Ding et al.,2025 (https://arxiv.org/html/2511.20639#bib.bib10))以及开放域问答(Jin et al.,2025 (https://arxiv.org/html/2511.20639#bib.bib22); Li et al.,2025c (https://arxiv.org/html/2511.20639#bib.bib28),2026 (https://arxiv.org/html/2511.20639#bib.bib29))。在基于LLM的MAS中,自然语言或文本通常充当通用语言——承载每个智能体内部思考并在不同智能体之间实现通信的共同媒介(Guo et al.,2024 (https://arxiv.org/html/2511.20639#bib.bib16))。
除了显式文本,一些研究探索了利用LLM的连续潜在空间作为一种新的“模型语言”(Chen et al.,2025b (https://arxiv.org/html/2511.20639#bib.bib5)),方式包括(i)利用Transformer内的隐藏表示实现单模型内部的潜在思维链推理(Hao et al.,2024 (https://arxiv.org/html/2511.20639#bib.bib17); Zheng et al.,2025 (https://arxiv.org/html/2511.20639#bib.bib66); Zhang et al.,2025 (https://arxiv.org/html/2511.20639#bib.bib63)),或(ii)使用KV缓存或层嵌入在两个模型之间进行信息交换(Liu et al.,2024 (https://arxiv.org/html/2511.20639#bib.bib31); Fu et al.,2025 (https://arxiv.org/html/2511.20639#bib.bib13))。然而,一个同时统一了潜在推理和潜在通信的全面模型协作框架仍有待探索。向前迈进一步,我们旨在研究:
MAS能否实现纯潜在协作?
为解决这个问题,我们引入了LatentMAS,一个完全在连续潜在空间内运行的端到端协作框架。我们的核心设计整合了内部的潜在思考生成和跨智能体的潜在工作记忆传递。在每个智能体内部,推理通过自回归生成最后一层隐藏表示展开,捕获模型持续的内部思考而无需显式解码。在智能体之间,信息通过存储在分层KV缓存中的共享潜在工作记忆进行交换,同时捕获输入上下文和新生成的潜在思考。总体而言,LatentMAS是完全免训练的,使所有智能体能够纯粹通过其内部潜在表示进行思考和交互。
基于这一框架设计,LatentMAS建立在三个基本原则之上,并通过全面的理论和实证分析得到证实:
•推理表达能力:隐藏表示自然编码了模型的连续思考,使得每个潜在步骤比离散令牌更具表现力,能够传达更丰富的语义信息。•通信保真度:潜在工作记忆保存了输入表示和潜在思考,实现了跨智能体的无损信息传输。•协作复杂度:LatentMAS比基于文本的MAS具有更高的协作表达能力,同时推理复杂度显著降低。
前两个原则共同强调了LatentMAS的优势,即实现更丰富的潜在推理和无损的潜在通信。最后一个原则描述了潜在协作如何重塑效率-表达能力的权衡,说明LatentMAS能够以降低的计算开销实现可扩展的多智能体协调。
为了实证评估LatentMAS的有效性,我们在9个基准测试上进行了全面评估,涵盖数学与科学推理、常识理解和代码生成(图1 (https://arxiv.org/html/2511.20639#S0.F1))。在顺序和层次化两种MAS设置下,以及跨越Qwen3(Yang et al.,2025 (https://arxiv.org/html/2511.20639#bib.bib53))和Llama3(Grattafiori et al.,2024 (https://arxiv.org/html/2511.20639#bib.bib15))系列的五个不同骨干模型,LatentMAS一致性地优于先进的单模型和基于文本的MAS基线:(i)准确率最高提升14.6%,(ii)输出令牌使用量减少70.8%-83.7%,(iii)端到端推理速度提升4倍至4.3倍。这些结果表明,潜在协作不仅提升了系统级推理质量,而且在不进行任何额外训练的情况下提供了一致的效率增益。对潜在思考表达能力、工作记忆传递和输入输出对齐的进一步详细分析证实,LatentMAS能够在潜在空间内实现语义上有意义的、无损且稳定的协作。
2 预备知识与符号
Transformer中的自回归生成。设fθ(·)表示由标准Transformer模型(Vaswani et al.,2017 (https://arxiv.org/html/2511.20639#bib.bib45))计算的函数,参数化为θ。给定输入序列x=(x1,x2,…,xT),Transformer fθ(·)首先通过其输入嵌入层Win对每个令牌进行编码,得到截至步骤t的令牌嵌入,即E=[e1,e2,…,et]∈R^{t×dh},其中dh是模型的隐藏维度。然后,输入令牌嵌入E通过前向传播依次经过L个Transformer层的残差流,得到最终层隐藏表示H=[h1,h2,…,ht]∈R^{t×dh}。对于下一个令牌的生成,模型计算:
fθ(xt+1∣x≤t)=softmax(htWout),(1)
其中Wout是语言模型头,将隐藏表示映射到词汇空间。每个令牌以自回归方式生成并追加到输入序列中。对于潜在生成,模型在隐藏表示上执行自回归,而不是在令牌上,从而绕过显式解码(Hao et al.,2024 (https://arxiv.org/html/2511.20639#bib.bib17))。
KV缓存作为工作记忆。在仅解码器的Transformer中,键值缓存充当自回归生成期间的动态工作记忆,存储先前解码步骤的中间表示以避免冗余计算。具体来说,给定输入嵌入E,每个Transformer层通过投影矩阵WQ、WK、WV将它们投影得到Q、K、V。当生成步骤t+1的下一个令牌时,模型将其嵌入追加到输入序列,并更新缓存(Kcache,Vcache)如下:
Kcache←[K≤t;Kt+1], Vcache←[V≤t;Vt+1], (2)
其中K≤t、V≤t是来自之前所有步骤累积的键/值矩阵,Kt+1、Vt+1是从当前令牌隐藏状态计算的新键/值向量。这种累积特性使KV缓存能够维护模型内部表示不断增长的工作记忆。
参见图注 图2:顺序和层次化MAS设置的示意图。 参见图注 图3:LatentMAS框架概览。为实现端到端系统范围的潜在协作,LatentMAS中的每个LLM智能体首先通过在潜在空间中生成来自最后一层隐藏状态的潜在思考来进行推理(第3.1节),然后通过共享潜在工作记忆的分层传递将其内部推理传递给后续智能体(第3.2节)。
基于LLM的MAS设置。我们考虑一个由N个智能体组成的多智能体系统S,表示为A={A1,A2,…,AN},其中每个智能体Ai是对应于上述fθ_i的LLM。在推理时,向系统S提供一个输入问题q,系统编排智能体之间的交互,以协作产生与q对应的最终答案a。由于MAS设计范式通常不是确定性的,并且往往因下游任务而异(Tran et al.,2025 (https://arxiv.org/html/2511.20639#bib.bib44); Cemri et al.,2025 (https://arxiv.org/html/2511.20639#bib.bib3)),我们不将我们的潜在协作设计限制于任何特定架构。相反,我们采用两种最常用的MAS设置(顺序和层次化)作为基础,以实验评估我们的方法。图2 (https://arxiv.org/html/2511.20639#S2.F2)展示了两种MAS架构设置。在顺序MAS中,我们采用一种智能体链设计(Zhang et al.,2024b (https://arxiv.org/html/2511.20639#bib.bib62); Zhao et al.,2026 (https://arxiv.org/html/2511.20639#bib.bib64)),包含四个LLM智能体:规划者、评论者、优化者和求解者。这些智能体扮演互补的推理角色,并按顺序流水线组织,其中每个智能体的思维链输出连同问题q作为下一个智能体的输入。在层次化MAS中,我们采用一种领域专业化设计(Zhuge et al.,2024 (https://arxiv.org/html/2511.20639#bib.bib70); Zhao et al.,2025 (https://arxiv.org/html/2511.20639#bib.bib65))。多个LLM智能体,包括代码、数学和科学智能体,作为不同的领域专家运作。每个智能体从其学科角度独立推理问题q。然后,一个汇总者智能体接收所有中间响应以及问题q,执行层次化聚合以综合并优化最终答案。
3 LatentMAS
我们介绍LatentMAS,一个端到端的潜在协作框架,其中所有智能体完全在潜在空间内进行推理和通信。如图3 (https://arxiv.org/html/2511.20639#S2.F3)所示,我们的方法使LLM智能体能够(i)自回归生成富有表现力的潜在思考(第3.1节),(ii)以无损通信保真度跨智能体传递潜在工作记忆(第3.2节),以及(iii)在支持更高程度模型协调的同时,实现比基于文本的MAS更低的推理复杂度(第3.3节)。
方法路线图。在以下子节中,我们将呈现LatentMAS的完整流水线,详细描述每个组件并穿插理论分析以证明相应的设计原则。
3.1 自回归潜在思考生成
我们首先描述每个LLM智能体如何通过其分层隐藏状态进行潜在推理。推理不是通过解码显式令牌,而是直接在智能体内部通过自回归追加来自最终模型层的隐藏表示而展开。
给定包含问题q和每个智能体指令提示信息的输入嵌入E=[e1,e2,…,et],每个LLM智能体Ai∈A将E通过L个Transformer层,以计算当前步骤t的最后一层隐藏表示ht。然后,我们将ht作为下一步t+1的输入嵌入,替换标准令牌生成中使用的原始解码和下一个令牌嵌入过程。我们自回归地重复该过程进行m个潜在步骤,生成一个新生成的最后一层隐藏状态序列H=[ht+1,ht+2,…,ht+m]。我们将连续输出表示H定义为Ai生成的潜在思考。
输入-输出分布对齐。由于新生成的H形成连续的高层表示序列,直接将它们作为输入嵌入插入浅层可能导致分布外激活(Meegahapola et al.,2019 (https://arxiv.org/html/2511.20639#bib.bib34); Zhou et al.,2019 (https://arxiv.org/html/2511.20639#bib.bib68)),因为这些隐藏状态与学习到的令牌嵌入的统计模式不同。为了以免训练方式缓解这一问题,我们提出一个线性对齐算子,将最后一层隐藏状态映射回有效的输入嵌入。具体来说,给定Win、Wout作为Ai的输入和输出嵌入层,我们寻找一个投影矩阵Wa∈R^{dh×dh},将每个输出向量h∈H映射到一个新的输入向量e,以与由Win定义的有效输入空间对齐:
e = hWa, 其中 Wa ≈ Wout^† Win. \d
相似文章
@FinanceYF5: 多智能体不用说话就能协作了 LatentMAS 入选 ICML 2026 Spotlight——Agent 直接在隐空间传递推理状态,跳过文字编解码。 准确率 +13.3%,速度 4.3 倍,token 用量少 83.7%。 不额外训练,…
LatentMAS 是一种多智能体协作新方法,智能体在隐空间直接传递推理状态,无需文字编解码,实现准确率提升13.3%、速度4.3倍、token用量减少83.7%,无需额外训练即可插入现有LLM,已入选ICML 2026 Spotlight。
TMAS:通过多智能体协同扩展测试时计算
TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。
NeuroMAS:将多智能体系统视为具有联合强化学习的神经网络
NeuroMAS将多智能体语言系统视为可训练的类神经网络架构,以LLM代理作为节点,利用强化学习来学习通信和专业化。实验表明,其性能得到提升,并且从较小的系统逐步扩展比从头训练大型系统效果更好。
超越标记:基于LLM的多智能体系统中潜在通信的统一框架
本文提出了一个基于LLM的多智能体系统中潜在通信的统一框架,按照通信信息内容、发送者-接收者对位和融合技术对方法进行分类,并回顾了2024至2026年间的十八种代表性方法。
潜在智能体:一种内化多智能体辩论的后训练方法
波士顿大学的研究人员提出了 IMAD(内化多智能体辩论),这是一个两阶段微调框架,能够将多智能体辩论过程提炼至单个 LLM 中,在匹配甚至超越显式多智能体辩论性能的同时,实现最高 93% 的 token 用量缩减。该研究还揭示了激活空间中存在特定于智能体的子空间,从而可以对内化推理行为进行有效控制,包括抑制恶意智能体的影响。