Multi-Agent Transactive Memory

arXiv cs.AI 2026/06/20 04:00 论文

摘要

提出了多智能体交易记忆（MATM）框架，用于在种群级别存储和检索智能体生成的轨迹，以提高任务性能并减少交互步骤，适用于ALFWorld和WebArena等交互环境。

arXiv:2606.19911v1 Announce Type: new 摘要：具有多样化能力的大语言模型（LLM）智能体在多样化任务中的去中心化部署，催生了跨异构智能体群体进行知识共享的基础设施需求。正如搜索引擎索引人类生成的产物以支持人类解决问题一样，检索系统可以组织智能体生成的产物，供智能体群体复用。我们将检索增强生成（其证明了人类撰写的产物对单个智能体的价值）扩展到检索智能体生成的产物，以支持智能体群体。特别是，智能体轨迹编码了可重用的程序性知识，然而这些产物通常在使用一次后就被丢弃，或仅由生成智能体保留，导致新实例化的智能体不断重复发现已有解决方案。我们提出了多智能体交易记忆（MATM）框架，用于在种群级别存储和检索智能体生成的轨迹，其中生产者智能体将轨迹贡献到共享仓库，消费者智能体检索这些轨迹以改进任务执行。我们专注于交互环境（ALFWorld和WebArena），其中轨迹较长且编码了特别丰富的程序性结构。我们的实验表明，从MATM检索轨迹可提高下游任务性能，并减少交互步骤，无需协调或联合训练。这些结果使MATM成为开放智能体生态系统中种群级别经验共享的一种设计模式。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:34

# 多智能体交互记忆 来源：https://arxiv.org/html/2606.19911 To Eun Kim1\* Xuhong He1\* Dishank Jain1\* Ambuj Agrawal1 Negar Arabzadeh2 Fernando Diaz1 1卡内基梅隆大学 2加州大学伯克利分校 ###### 摘要 将具有不同能力的LLM智能体分散部署到多样化的任务中，需要支持异构智能体群体间知识共享的基础设施。正如搜索引擎索引人类生成的产物以支持人类解决问题一样，检索系统可以组织智能体生成的产物，以便在智能体群体中重复使用。我们将检索增强生成——它证明了人类编写的产物对单个智能体的价值——扩展到检索智能体生成的产物，以支持整个智能体群体。特别是，智能体的轨迹编码了可重用的过程性知识，然而这些产物通常在使用一次后被丢弃，或仅由生成它的智能体保留，导致新实例化的智能体不得不反复重新发现现有的解决方案。我们提出了多智能体交互记忆（MATM），这是一个用于在群体层面存储和检索智能体生成轨迹的框架，其中生产者智能体将轨迹贡献到共享存储库，消费者智能体则检索这些轨迹以改进任务执行。我们专注于交互式环境（ALFWorld 和 WebArena），这些环境中的轨迹长且编码了特别丰富的过程性结构。我们的实验表明，从MATM检索轨迹可以提升下游任务性能，并在无需协调或联合训练的情况下减少交互步骤。这些结果确立了MATM作为开放智能体生态系统中群体层面经验共享的设计模式。

多智能体交互记忆 To Eun Kim1\* Xuhong He1\* Dishank Jain1\* Ambuj Agrawal1 Negar Arabzadeh2 Fernando Diaz1 1卡内基梅隆大学 2加州大学伯克利分校 ††footnotetext:\*表示同等贡献。††footnotetext: \*https://github.com/kimdanny/matm参考图注图1：多智能体交互记忆（MATM）。传统搜索服务人类检索人类撰写的文档。RAG将此扩展到智能体从人类生成的语料库中检索。MATM则更进一步，允许智能体检索智能体生成的产物，例如交互轨迹，这些是非典型文档，与人类撰写的文本有根本不同。MATM可以在服务分布式智能体群体的同时持续增长。

## 1 引言

随着异构LLM智能体被部署到越来越多样化的领域，单个智能体设计的研究必须辅之以支持分散式智能体群体的方法。对群体层面基础设施的需求已经催生了支持智能体-工具交互的协议（mcp2026）以及智能体间通信的协议（a2a_protocol2026）。除了标准之外，像搜索引擎这样的工具也开始针对智能体进行优化（zamani:reml; salemi:se-for-machines）。尽管检索增强生成（RAG）证明了人类编写的产物对单个智能体的价值，但智能体之间的知识共享基础设施提供了一种引人注目的替代方案。正如搜索引擎索引人类生成的产物以支持人类解决问题一样，检索系统可以组织智能体生成的产物，以便在智能体群体中重复使用（图1（https://arxiv.org/html/2606.19911#S0.F1））。

产物的共享和重用对于实现可扩展、高效且持续改进的智能体群体至关重要。当智能体在环境中运行时，它们会产生许多中间产物，其中包含丰富的过程性知识，例如动作-观察轨迹（muennighoff-etal-2025-s1）。然而，这些产物通常在使用一次后被丢弃，或仅由生成它的智能体保留（zheng2024synapse）。高效重用已学行为并持续获取新知识或经验的能力，对于可扩展性和长期性能变得至关重要（wang2025agentworkflow; liang2026skillnet; shi2025continual）。与RAG相比，智能体生成的产物可能比人类编写的文档更适合智能体消费（chen2026agentir）。实际考虑进一步放大了群体层面重用的需求。许多现代智能体依赖于推理时扩展，并生成大量中间产物，导致巨大的计算成本（kaplan2020scaling; yao2023tree; wu2024scaling; welleck2024from）。因此，重用这些产物可以降低推理和探索的成本（ahmed2025retrieval）。

现有的产物重用方法不足以满足异构智能体生态系统。先前关于推理或思想重用的工作（zheng2024synapse; ouyang2025reasoningbank; ahmed2025retrieval）提高了单个智能体的成本效益和有效性，但重用仍然局限于原始产物的生成者；尽管智能体解决的任务存在大量重叠，交互轨迹通常在使用一次后被丢弃（zheng2024synapse; zhao2024expel），导致新实例化的智能体不得不反复重新发现生态系统中其他地方已经存在的解决方案。相关的范式，如迁移学习（konidaris:portable-options; brunskill:multi-task-rl-sample-complexity）和知识蒸馏（li2025naturalthoughts; kang2025distilling），需要源域和目标域之间的对齐，并且通常需要额外的训练，使得它们对于多样化、动态实例化的异构智能体群体来说不切实际。集中式的多智能体协调方法（dang2025multiagent）进一步假设了协作设置和共享协议，限制了它们在开放生态系统（tranMultiAgentCollaborationMechanisms2025）中的适用性，在开放生态系统中，智能体可以随时自由加入。事实上，基于对Moltbook的分析，liDoesSocializationEmerge2026 指出共享社会记忆是智能体社会发展缺失的先决条件。

为了解决这个差距，我们提出了多智能体交互记忆（MATM），一个用于群体层面存储和检索智能体生成产物的框架，其基础是交互记忆（wegner1987transactive）的概念，在该概念中，人类群体通过使用用于定位和检索相关信息的共享机制在个体之间分布知识来进行协调。类似地，MATM维护一个共享存储库，智能体可以贡献自己在任务执行过程中产生的产物（生产者智能体），并且智能体可以从中检索过程性知识以提高自己的任务有效性和效率（消费者智能体）。这两个角色并不互斥：一个智能体可以在一个上下文中产生轨迹，并在另一个上下文中消费它们。这种生产者-消费者结构为智能体生成的过程性知识创造了一个双边市场，并在检索到的产物及其来源之间建立了清晰的归属。随着越来越多的智能体与存储库交互，MATM有机地增长，跨越来越多样化的任务和环境积累语料库。作为一个专门针对智能体生成产物的检索系统运行，MATM进一步实现了超越通用相似性搜索的检索功能，包括针对智能体的个性化、生产者信任建模以及随着群体演化定期更新检索器。

我们在交互式环境（ALFWorld（shridhar2021alfworld）和 WebArena（zhou2024webarena））中经验性地展示了MATM的有效性。我们首先表明，智能体始终能从简单的单阶段检索流程中受益：从由多样化智能体填充的MATM存储库中检索相关轨迹，不仅可以在不需要额外协调或联合训练的情况下提升下游任务性能，而且还能提高任务效率，表现为交互步骤的减少。我们进一步引入了一个高效但强大的基于学习排序（LTR）的轨迹重排序阶段。通过对轨迹信息进行简单的特征化，重排序带来了更好的检索质量，从而提高了任务有效性和步骤效率。此外，我们发现检索的好处同时适用于较弱和较强的智能体，能够跨任务泛化，并且随着存储库的增长而持续改善。综合来看，我们的结果表明，MATM为群体层面的经验重用提供了一种可扩展的机制，使智能体能够利用集体轨迹，而不是孤立地反复重新发现解决方案。

## 2 背景（附录A（https://arxiv.org/html/2606.19911#A1））

记忆在AI智能体的发展中一直扮演着重要角色。现有方法可以被理解为对各种数据来源的记忆。

**训练数据记忆** 为智能体提供了对优化过程中显式或隐式存储的知识的访问。显式方法包括最近邻算法（cover-hart:nn; khandelwal:knnlm）或基于案例的推理（kolodner:intro-cbr; das:nl-cbr）或隐式行为（carlini:memorization）。

**经验数据记忆** 为智能体提供了对其自身交互轨迹的访问。历史上，反映经验数据记忆的方法包括早期的认知架构，如SOAR（laird:soar）、强化学习（lin:experience-replay）和神经网络（weston:memory-networks）。在LLM智能体的背景下，最近的扩展将智能体自身的交互历史视为可检索的上下文，催生了记忆增强生成，其中过去的对话或执行轨迹指导未来的行为（shinn2023reflexion; majumder2024clin; zheng2024synapse）。智能体在解决问题过程中生成丰富的中间产物，包括动作-观察轨迹、思考轨迹、计划、工作流和可重用的代码，类似于强化学习中的选项（Garcia19compressionMacro; veeriah2021discovery）。在轨迹层面，Buffer of Thoughts（yang2024buffer）和 Retrieval of Thought（ahmed2025retrieval）检索推理模板作为上下文指导，而 zheng2024synapse 和 zhao2024expel 则重用动作-观察轨迹进行下游决策。除了轨迹之外，诸如 CLIN（majumder2024clin）、Voyager（wang2024voyager）、AWM（wang2025agentworkflow）、MaestroMotif（klissarov2025maestromotif）、ASI（wang2025inducing）、ReasoningBank（ouyang2025reasoningbank）和 T3（arabzadeh2026thinkingtrace）等工作提取并重用更抽象的产物，如因果抽象、工作流、技能和可执行代码。智能体产物还可以作为蒸馏信号，在模型间传递能力（yang2025supercorrect; li2025naturalthoughts; kang2025distilling）。

**外部数据记忆** 为智能体提供对共享产物存储库的访问，其典型代表是检索增强生成（RAG）（lewis2020retrieval），它通过根据检索到的外部上下文来条件化生成，从而增强语言模型（fan2024survey）。

## 3 多智能体交互记忆

在现有的记忆系统中，经验数据通常只被产生它的相同或同质智能体重用，导致有价值的经验被隔离，并迫使经验较少的智能体重新发现现有的解决方案。相比之下，我们提出了一种群体层面的经验数据记忆，为智能体群体提供集体记忆。我们不将记忆视为每个智能体的私有资源，而是将其视为一个共享的、结构化的资源，异构智能体既可以贡献也可以从中检索。这将产物重用从个体优化机制转变为集体知识基础设施，实现持续学习和跨智能体迁移，减少冗余探索，并在群体层面支持累积能力增长。

我们考虑一个包含n个LLM智能体的群体 A = {A_i}_{i=1}^n，每个智能体可能追求异构目标，并在一个或多个环境 E = {E_i}_{i=1}^m 中运行。一个任务由描述 x ∈ X 指定，该描述对应于智能体的目标规范或初始状态。给定环境 E_i 中的任务描述 x，LLM 智能体 A_j 与环境进行一系列交替轮次来求解任务。在这个过程中，我们可以记录一个变长轨迹 T_{E_i, A_j} = (τ_t)_{t=1}^H，其中每一步 τ_t 代表一个交互单元。例如，在网页导航环境中，每个 τ_t 对应于交互序列中的一个动作-观察对（例如，一个点击动作和由此产生的HTML观察）。为简单起见，我们将这个智能体生成的轨迹记为 T。随着智能体群体 A 在环境 E 中运行，这些轨迹积累成一个丰富的中间产物集合。我们将群体层面的产物存储库记为 D = {T}，并称这种逐渐增长的共享记忆为多智能体交互记忆（MATM）。在这个框架内，我们将向 D 贡献轨迹的智能体称为生产者智能体，而将从中检索以帮助自己任务求解的智能体称为消费者智能体，这两个角色并不互斥。我们的目标是研究如何优化从这种群体层面记忆中的检索，以改善消费者智能体群体的结果。尽管我们专注于原始轨迹，但这并不排除更高级别的抽象，如技能或归纳策略。我们以轨迹作为智能体在各种环境中产生的最底层、最普遍可用的输出，因此为研究MATM中的索引和检索提供了自然的基础，同时仍然允许在此基础上构建更高级别的抽象，如技能归纳（klissarov2025maestromotif）。此外，对交互轨迹的检索本身并非易事。像 SKILL.md 文件这样的提示类产物可以使用标准RAG技术进行索引（liang2026skillnet），或进一步转换为更易于检索的形式（arabzadeh2026thinkingtrace），但基于状态条件对动作-观察历史进行检索受到关注要少得多，而这正是我们研究的场景。

### 3.1 交互记忆索引与检索

对于动作-观察轨迹，我们采用一种状态条件的键值索引方案，其中最近的交互历史作为检索键，后续的交互片段作为存储值。这使得消费者智能体能够基于其当前状态（而不仅仅是原始任务指令）检索到持续的指导。给定窗口大小 l，对于每个交互步骤 t，我们定义键 e_key^(t) = f(x, τ_{t-l+1}, ..., τ_t) 和关联的值作为接下来的 l 步 (τ_t, ..., τ_{t+l-1})，该值作为文档 d，智能体在推理时检索它，其中 f 是一个共享的嵌入函数，τ_i 同时包含观察和动作。给定任务描述 x 和 MATM 记忆 D，轨迹检索器 R 按照上述过程形成搜索查询 q，并返回一个候选轨迹块的排序列表 π = R(x, D, K)，其中排名越高的块被认为对当前任务和状态越相关。轨迹检索器 R 可以被实例化为一个稠密

Multi-Agent Transactive Memory

相似文章

AdMem：面向任务求解智能体的高级记忆系统

Agentmemory

TMAS：通过多智能体协同扩展测试时计算

rohitg00/agentmemory

ActiveMem：面向长程LLM推理的分布式主动记忆

提交意见反馈