从信号到结构：记忆架构如何驱动LLM智能体中的语言涌现

arXiv cs.AI 2026/07/02 04:00 论文

摘要

这篇论文研究了记忆架构如何影响玩刘易斯信号游戏的LLM智能体中语言的涌现，发现持久化的私有笔记本记忆优于无状态智能体，并防止高容量崩溃。

arXiv:2607.00233v1 公告类型：新摘要：两个智能体如何从零开始发明一种共享语言？在刘易斯信号游戏中，发送者和接收者必须仅凭交互历史协调一种代码。我们研究了在五种记忆架构下、不同通道配置中LLM智能体的表现，发现记忆架构比通道容量更重要。拥有持久化私有笔记本的智能体受益于多余的通道容量，避免了无状态智能体中观察到的高容量崩溃，并实现了最可靠的协调（容量=25时，$0.867 \pm 0.023$）。无状态智能体在中等容量时达到峰值，然后随着词汇量增长超出滚动上下文窗口的追踪能力而退化。笔记本将习得的惯例外化，使智能体无需每轮重新推导代码。受信息瓶颈启发的论点预测最优容量等于对象数量。然而，瓶颈（容量=8）被证明是一个脆弱点，而多余的容量通常更好。我们表明仅凭通道容量无法预测协调；记忆架构决定了智能体是否将交互历史转化为稳定的惯例，这两个维度都需要用来理解信号如何成为语言。

查看原文

查看缓存全文

缓存时间: 2026/07/02 05:40

# 记忆架构如何驱动LLM智能体语言涌现 来源：https://arxiv.org/html/2607.00233 ## 从信号到结构：记忆架构如何驱动LLM智能体语言涌现 Osmar R\. Zaïane1 1阿尔伯塔机器智能研究所，阿尔伯塔大学，埃德蒙顿，加拿大 2网络应用技术公司，埃德蒙顿，加拿大 talebira@ualberta\.ca, eden@nat\.ltd ###### 摘要 两个智能体如何从零开始发明一种共享语言？在Lewis信号博弈中，发送者和接收者必须仅凭交互历史来协调出一套编码。我们使用LLM智能体，在不同信道配置下研究了五种记忆架构，发现记忆架构比信道容量更重要。拥有持久私人笔记本的智能体能从多余信道容量中获益，并避免了无状态智能体中常见的高容量崩溃，实现了最可靠的协调（在容量=25时达到0.867±0.023）。无状态智能体在中等容量时表现最佳，随后随着词汇量增长超出滚动上下文窗口的追踪范围而退化。笔记本将习得的规约外化，使智能体无需每轮重新推导编码。一个基于信息瓶颈的论点预测最佳容量应等于对象数量。然而，瓶颈（容量=8）反而成为脆弱点，而多余容量通常更有利。我们证明，信道容量本身无法预测协调效果；记忆架构决定了智能体能否将交互历史转化为稳定规约，理解信号如何成为语言需要同时考虑这两个维度。 ††©2026 Yashar Talebirad, Eden Redman, Ali Parsaee, and Osmar R\. Zaïane\. 根据知识共享署名4.0国际许可协议（CC BY 4.0）发布。††本文是作者投稿至ALIFE 2026的论文版本，与最终正式出版版本相比仅有细微的美学调整，后者刊载于ALIFE 2026会议论文集。## 引言 Lewis信号博弈（Lewis, 1969 (https://arxiv.org/html/2607.00233#bib.bib11)）是沟通涌现的最小模型：发送者观察一组候选目标中的指定目标，并发送一个受限信号；接收者看到同样的候选目标和信号，然后识别目标。不存在预先约定的含义，智能体仅通过重复协调来收敛。在此协调任务中的持续成功意味着智能体发明了一种新语言。由于对象由熟悉特征描述，且智能体是具有语义先验的预训练模型，这种语言是从任意信号空间到已结构化的意义空间的映射。

大语言模型引入了一种不同类型的智能体。与梯度训练的智能体不同，LLM提供了通用的推理器，可以在无需重新训练的情况下放入各种模拟环境中，为每项任务带来语言和推理先验。LLM还能通过*上下文学习*（Brown et al., 2020 (https://arxiv.org/html/2607.00233#bib.bib4)）进行适应：它们可以对先前交互历史进行推理，以在每次新调用时优化策略。这便将关注点从模型架构转向了*记忆架构*：每个智能体在各轮之间保留什么信息以及以何种形式保留。草稿本（Nye et al., 2021 (https://arxiv.org/html/2607.00233#bib.bib15)）和思维链（Wei et al., 2022 (https://arxiv.org/html/2607.00233#bib.bib24)）文献表明，中间表征的结构会影响LLM能计算什么。在信号博弈中，智能体如何存储所学内容决定了它能发明何种语言。

经典涌现沟通研究使用梯度训练的神经智能体在此框架下进行，发现组合协议（即信号结构反映对象结构）在适当压力下涌现（Lazaridou et al., 2017 (https://arxiv.org/html/2607.00233#bib.bib10)）。信息论瓶颈论点（Tishby et al., 1999 (https://arxiv.org/html/2607.00233#bib.bib23)）促使我们特别关注信道相对于指代物数量稀缺的情况。Resnick等人（2020 (https://arxiv.org/html/2607.00233#bib.bib19)）研究了组合性如何随带宽和模型容量变化。当信道容量（cap，即可用不同消息的数量）恰好等于对象数量（此处cap=8）时，信道承受的压力最大。低于该下限，智能体无法区分所有对象；高于该下限，压缩重用结构的压力减弱。这个cap=8点对于LLM智能体而言是组合性最优，还是协调效果更取决于智能体能记住什么而非信道本身，正是本文要回答的问题。

我们进行了三项研究，均使用gpt-5.4-mini作为两个智能体的基础模型。研究1在固定信道下比较五种记忆架构；研究2通过改变词汇大小|V|和消息长度L，将信道容量从4扫到125；研究3将巩固机制与历史长度分离。我们证明，信道容量本身无法预测智能体在瓶颈处是否能协调。信息瓶颈cap=8结果是一个脆弱点而非组合性最优。仅关注容量的视角将表现视为信道的属性，忽略了记忆架构：智能体能否写下所学并将其带到后续轮次，而非每轮重新推导。拥有持久私人笔记本的智能体能从多余信道容量中受益，不会出现高容量崩溃；而无状态智能体在中等容量时达到峰值，随后随着编码空间增长超出滚动窗口追踪范围而退化。我们表明，记忆架构重塑了容量-表现曲线，而不仅仅是将其平移。

## 背景 ### Lewis信号博弈。 Lewis博弈已通过分析（Skyrms, 2010 (https://arxiv.org/html/2607.00233#bib.bib21)）、计算（Kirby, 2001 (https://arxiv.org/html/2607.00233#bib.bib5)）和人类实验（Kirby et al., 2008 (https://arxiv.org/html/2607.00233#bib.bib6)）进行研究。迭代学习传统表明，传递压力可驱动组合结构的涌现。更具体地说，Kirby等人（2015 (https://arxiv.org/html/2607.00233#bib.bib7)）认为组合性需要沟通压力（可区分性）和压缩压力（可学习性）共同作用；单独一方面不足以实现。这种双重压力观点为我们比较记忆架构提供了理论基础。

### 与神经智能体的涌现沟通。 Lazaridou等人（2017 (https://arxiv.org/html/2607.00233#bib.bib10)）建立了现代深度学习的指代博弈框架；使用REINFORCE算法训练的发送者-接收者对开发出的协议具有功能性但往往非组合性（Lowe et al., 2019 (https://arxiv.org/html/2607.00233#bib.bib13)）。组合性（通过拓扑相似性TopSim测量；Brighton和Kirby, 2006 (https://arxiv.org/html/2607.00233#bib.bib3)）在结构化输入空间（Lazaridou et al., 2018 (https://arxiv.org/html/2607.00233#bib.bib9)）、迭代学习压力（Ren et al., 2020 (https://arxiv.org/html/2607.00233#bib.bib18)）或易教目标（Li和Bowling, 2019 (https://arxiv.org/html/2607.00233#bib.bib12)）下更可靠地涌现。此外，Resnick等人（2020 (https://arxiv.org/html/2607.00233#bib.bib19)）指出信道容量是关键变量，并认为存在一个最优带宽范围。所有这些先前工作均使用梯度训练智能体。相比之下，我们研究冻结的LLM智能体，其唯一的适应机制是上下文推理。

### 作为沟通智能体的LLM。 最直接相关的先前工作是Kouwenhoven等人（2025 (https://arxiv.org/html/2607.00233#bib.bib8)），他们让LLM在具有代际传递的迭代指代博弈中运行，发现初始整体性语言（每个信号命名整个对象）在代际间获得组合结构。在我们的设计中，语言不在代际间传递，而是智能体在单次运行中积累记忆。Ashery等人（2025 (https://arxiv.org/html/2607.00233#bib.bib2)）表明LLM群体自发发展共享命名规约，证实规约形成动态并非人类或梯度训练系统独有。在协调方面，Akata等人（2025 (https://arxiv.org/html/2607.00233#bib.bib1)）发现LLM在纯协调博弈中表现不佳，除非某种机制打破智能体间的对称性。Parsaee等人（2025 (https://arxiv.org/html/2607.00233#bib.bib16)）在分布式图着色基准中报告了类似模式：无传递策略方式时智能体可能无限循环，只有当记忆结构支持涌现对称破缺时才能脱离死锁。这些结果表明，记忆架构可能是区分能协调和不能协调的LLM智能体的关键因素。然而，这些研究均未将记忆架构作为受控变量，也未将其与信道容量配对，而这正是我们在此所做的工作。

## 实验设置 ### 博弈 两个智能体进行N=200轮交互。智能体A（发送者）观察从8个对象池{红, 蓝}×{圆, 方}×{小, 大}中均匀采样的四个候选对象和一个指定目标。然后智能体A发出一个固定长度L的符号消息，该消息来自受限词汇表V。智能体B（接收者）观察相同的四个候选对象和消息，然后猜测目标。每轮结束后，两个智能体都观察到结果（正确或错误）和真实目标。沟通严格单向，智能体永不见对方的私人记忆。每轮之后，记忆更新使用反馈中揭示的真实目标。

随机准确率为0.25，因为接收者在四个候选中选择。图1 (https://arxiv.org/html/2607.00233#Sx3.F1) 说明了博弈结构，图2 (https://arxiv.org/html/2607.00233#Sx3.F2) 展示了两个智能体的提示模板。没有预分配语义，因此规约必须通过游戏涌现。

图1：指代信号博弈。每轮中，智能体A（发送者）观察四个候选对象（白色槽位）和一个指定目标（橙色），然后从词汇V发射固定长度符号消息m∈V^L。智能体B（接收者）观察相同的四个候选和消息，然后猜测目标（橙色，最初未知）。两个智能体在每轮后收到完整反馈。对象（8个池）有三个二元特征：颜色（红/蓝）、形状（圆/方）、大小（小/大）。随机准确率为0.25。与最小Lewis博弈不同，接收者始终从四个候选中选择而非整个对象空间，这创造了持续的区分压力。

### 记忆架构 我们比较五种条件。在所有条件中，每个智能体每轮收到其最近20轮(消息, 目标, 成功)交互的滚动窗口作为上下文。我们在比较记忆架构和扫描容量时将此窗口固定为20，而非暴露模型完整上下文，这样表现差异反映的是每种架构添加的持久存储，而非显示的原始历史量。随后研究3直接改变窗口大小m∈{5,10,20,40}以确认固定窗口本身不是结果的原因。条件在它们添加的内容上有所不同；表1 (https://arxiv.org/html/2607.00233#Sx3.T1) 总结了所有五种。

表1：记忆架构条件。所有五种均以最近20轮交互的滚动窗口为基础。*更新*：持久存储每轮如何变化（overwrite==完整重写；in-place==槽位编辑；env==环境编译）。每个记忆存储是智能体结构化JSON输出（strict json_schema）的一个字段：模型写入，框架解析并重新注入到下一轮的提示中，智能体从不直接调用外部工具或编辑文件。在共享的最近20轮(消息, 目标, 成功)三元组滚动窗口之上，每个智能体还输出一个理由（≤20词）。此内容仅记录用于分析，不存储在记忆中也不传输，因此接收者从发送者接收的唯一信号是消息m∈V^L。持久存储的更新方式不同。草稿本笔记本（≤150词）每轮*覆盖*：智能体重新输出整个笔记本，仅最新版本被向前传递，因此其大小不随轮次增长。代码本是一个固定容量槽位列表（10个槽位），每轮通过一个结构化操作（追加、编辑或none）*原地*编辑，条目原样保留直到被显式覆盖。codebook_meta条件添加了一个持久元笔记字符串，在短预热后以相同方式更新。只有env_board是共享的：一个公共规约表，环境从累积的成功轮次计数中编译，两个智能体均可读取但均不能编辑。每个私人存储仅对其拥有智能体可见，两个智能体永不见对方记忆。

### 信道配置 容量 = |V|^L。我们扫描|V|∈{2,3,4,5} 和 L∈{2,3}，得到容量{4,8,9,16,25,27,64,125}。我们使用|V|^L作为容量度量，尽管香农容量比特数为log₂(|V|^L)，两者单调相关且在不同条件下产生相同排序。模型：gpt-5.4-mini。温度：1.0（API默认）。响应格式：json_schema（严格）。轮数：200。每轮候选数：4。两个智能体（共同前言）：游戏规则：每轮：(1) 发送者观察4个候选对象和指定目标；(2) 发送者发出允许词汇表中的固定长度符号消息；(3) 接收者观察4个候选和消息，然后猜测目标；(4) 两个智能体观察结果（正确/错误和真实目标）。对象：每个对象有3个特征：颜色（红/蓝）、形状（圆/方）、大小（小/大）。8个可能对象为：red_circle_small, red_circle_large, red_square_small, red_square_large, blue_circle_small, blue_circle_large, blue_square_small, blue_square_large。智能体A（发送者）信道：允许词汇：[A, B, ... 按条件定]。消息必须恰好[L]个标记。不能使用自然语言。策略：发展一致的信号到对象规约。跨轮为相同对象类型重用相同编码。不同对象应获得不同编码。使用交互记忆追踪哪些规约成功或失败。[记忆模式特定的笔记本指令。] 输出模式（仅记忆部分）：``` { "tokens": ["X", "Y", ...], "rationale": "<= 20 words" } ``` [草稿本添加notebook（自由文本，≤150词）。代码本添加action∈{append, edit, none}, slot∈0–9, value(文本)。Codebook_meta还添加meta_note（单行文本）。] 输出示例（第7轮）：``` { "tokens": ["A","B","A"], "rationale": "A B A maps to red_circle_small; target blue_circle_small identified by elimination." } ``` 智能体B（接收者）信道：智能体A的消息使用词汇：[A, B,

从信号到结构：记忆架构如何驱动LLM智能体中的语言涌现

相似文章

受人类启发的LLM智能体记忆架构

从存储到经验：大语言模型智能体记忆机制演进综述

@omarsar0: // LLM 智能体中的记忆诅咒 //（建议收藏）过长的历史记录显然会导致智能体性能下降，因为它们变得越来越…

@neural_avb: 关于LLM智能体图记忆的最新论文

@dair_ai：关于LLM智能体长期记忆的优秀论文。（收藏）粗粒度的摘要会偏移，无约束的更新会导致信息损坏，……

提交意见反馈