从信号到结构:记忆架构如何驱动LLM智能体中的语言涌现
摘要
这篇论文研究了记忆架构如何影响玩刘易斯信号游戏的LLM智能体中语言的涌现,发现持久化的私有笔记本记忆优于无状态智能体,并防止高容量崩溃。
arXiv:2607.00233v1 公告类型:新
摘要:两个智能体如何从零开始发明一种共享语言?在刘易斯信号游戏中,发送者和接收者必须仅凭交互历史协调一种代码。我们研究了在五种记忆架构下、不同通道配置中LLM智能体的表现,发现记忆架构比通道容量更重要。拥有持久化私有笔记本的智能体受益于多余的通道容量,避免了无状态智能体中观察到的高容量崩溃,并实现了最可靠的协调(容量=25时,$0.867 \pm 0.023$)。无状态智能体在中等容量时达到峰值,然后随着词汇量增长超出滚动上下文窗口的追踪能力而退化。笔记本将习得的惯例外化,使智能体无需每轮重新推导代码。受信息瓶颈启发的论点预测最优容量等于对象数量。然而,瓶颈(容量=8)被证明是一个脆弱点,而多余的容量通常更好。我们表明仅凭通道容量无法预测协调;记忆架构决定了智能体是否将交互历史转化为稳定的惯例,这两个维度都需要用来理解信号如何成为语言。
查看缓存全文
缓存时间: 2026/07/02 05:40
# 记忆架构如何驱动LLM智能体语言涌现 来源:https://arxiv.org/html/2607.00233 ## 从信号到结构:记忆架构如何驱动LLM智能体语言涌现 Osmar R\. Zaïane1 1阿尔伯塔机器智能研究所,阿尔伯塔大学,埃德蒙顿,加拿大 2网络应用技术公司,埃德蒙顿,加拿大 talebira@ualberta\.ca, eden@nat\.ltd ###### 摘要 两个智能体如何从零开始发明一种共享语言?在Lewis信号博弈中,发送者和接收者必须仅凭交互历史来协调出一套编码。我们使用LLM智能体,在不同信道配置下研究了五种记忆架构,发现记忆架构比信道容量更重要。拥有持久私人笔记本的智能体能从多余信道容量中获益,并避免了无状态智能体中常见的高容量崩溃,实现了最可靠的协调(在容量=25时达到0.867±0.023)。无状态智能体在中等容量时表现最佳,随后随着词汇量增长超出滚动上下文窗口的追踪范围而退化。笔记本将习得的规约外化,使智能体无需每轮重新推导编码。一个基于信息瓶颈的论点预测最佳容量应等于对象数量。然而,瓶颈(容量=8)反而成为脆弱点,而多余容量通常更有利。我们证明,信道容量本身无法预测协调效果;记忆架构决定了智能体能否将交互历史转化为稳定规约,理解信号如何成为语言需要同时考虑这两个维度。 ††©2026 Yashar Talebirad, Eden Redman, Ali Parsaee, and Osmar R\. Zaïane\. 根据知识共享署名4.0国际许可协议(CC BY 4.0)发布。††本文是作者投稿至ALIFE 2026的论文版本,与最终正式出版版本相比仅有细微的美学调整,后者刊载于ALIFE 2026会议论文集。## 引言 Lewis信号博弈(Lewis, 1969 (https://arxiv.org/html/2607.00233#bib.bib11))是沟通涌现的最小模型:发送者观察一组候选目标中的指定目标,并发送一个受限信号;接收者看到同样的候选目标和信号,然后识别目标。不存在预先约定的含义,智能体仅通过重复协调来收敛。在此协调任务中的持续成功意味着智能体发明了一种新语言。由于对象由熟悉特征描述,且智能体是具有语义先验的预训练模型,这种语言是从任意信号空间到已结构化的意义空间的映射。
大语言模型引入了一种不同类型的智能体。与梯度训练的智能体不同,LLM提供了通用的推理器,可以在无需重新训练的情况下放入各种模拟环境中,为每项任务带来语言和推理先验。LLM还能通过*上下文学习*(Brown et al., 2020 (https://arxiv.org/html/2607.00233#bib.bib4))进行适应:它们可以对先前交互历史进行推理,以在每次新调用时优化策略。这便将关注点从模型架构转向了*记忆架构*:每个智能体在各轮之间保留什么信息以及以何种形式保留。草稿本(Nye et al., 2021 (https://arxiv.org/html/2607.00233#bib.bib15))和思维链(Wei et al., 2022 (https://arxiv.org/html/2607.00233#bib.bib24))文献表明,中间表征的结构会影响LLM能计算什么。在信号博弈中,智能体如何存储所学内容决定了它能发明何种语言。
经典涌现沟通研究使用梯度训练的神经智能体在此框架下进行,发现组合协议(即信号结构反映对象结构)在适当压力下涌现(Lazaridou et al., 2017 (https://arxiv.org/html/2607.00233#bib.bib10))。信息论瓶颈论点(Tishby et al., 1999 (https://arxiv.org/html/2607.00233#bib.bib23))促使我们特别关注信道相对于指代物数量稀缺的情况。Resnick等人(2020 (https://arxiv.org/html/2607.00233#bib.bib19))研究了组合性如何随带宽和模型容量变化。当信道容量(cap,即可用不同消息的数量)恰好等于对象数量(此处cap=8)时,信道承受的压力最大。低于该下限,智能体无法区分所有对象;高于该下限,压缩重用结构的压力减弱。这个cap=8点对于LLM智能体而言是组合性最优,还是协调效果更取决于智能体能记住什么而非信道本身,正是本文要回答的问题。
我们进行了三项研究,均使用gpt-5.4-mini作为两个智能体的基础模型。研究1在固定信道下比较五种记忆架构;研究2通过改变词汇大小|V|和消息长度L,将信道容量从4扫到125;研究3将巩固机制与历史长度分离。我们证明,信道容量本身无法预测智能体在瓶颈处是否能协调。信息瓶颈cap=8结果是一个脆弱点而非组合性最优。仅关注容量的视角将表现视为信道的属性,忽略了记忆架构:智能体能否写下所学并将其带到后续轮次,而非每轮重新推导。拥有持久私人笔记本的智能体能从多余信道容量中受益,不会出现高容量崩溃;而无状态智能体在中等容量时达到峰值,随后随着编码空间增长超出滚动窗口追踪范围而退化。我们表明,记忆架构重塑了容量-表现曲线,而不仅仅是将其平移。
## 背景 ### Lewis信号博弈。 Lewis博弈已通过分析(Skyrms, 2010 (https://arxiv.org/html/2607.00233#bib.bib21))、计算(Kirby, 2001 (https://arxiv.org/html/2607.00233#bib.bib5))和人类实验(Kirby et al., 2008 (https://arxiv.org/html/2607.00233#bib.bib6))进行研究。迭代学习传统表明,传递压力可驱动组合结构的涌现。更具体地说,Kirby等人(2015 (https://arxiv.org/html/2607.00233#bib.bib7))认为组合性需要沟通压力(可区分性)和压缩压力(可学习性)共同作用;单独一方面不足以实现。这种双重压力观点为我们比较记忆架构提供了理论基础。
### 与神经智能体的涌现沟通。 Lazaridou等人(2017 (https://arxiv.org/html/2607.00233#bib.bib10))建立了现代深度学习的指代博弈框架;使用REINFORCE算法训练的发送者-接收者对开发出的协议具有功能性但往往非组合性(Lowe et al., 2019 (https://arxiv.org/html/2607.00233#bib.bib13))。组合性(通过拓扑相似性TopSim测量;Brighton和Kirby, 2006 (https://arxiv.org/html/2607.00233#bib.bib3))在结构化输入空间(Lazaridou et al., 2018 (https://arxiv.org/html/2607.00233#bib.bib9))、迭代学习压力(Ren et al., 2020 (https://arxiv.org/html/2607.00233#bib.bib18))或易教目标(Li和Bowling, 2019 (https://arxiv.org/html/2607.00233#bib.bib12))下更可靠地涌现。此外,Resnick等人(2020 (https://arxiv.org/html/2607.00233#bib.bib19))指出信道容量是关键变量,并认为存在一个最优带宽范围。所有这些先前工作均使用梯度训练智能体。相比之下,我们研究冻结的LLM智能体,其唯一的适应机制是上下文推理。
### 作为沟通智能体的LLM。 最直接相关的先前工作是Kouwenhoven等人(2025 (https://arxiv.org/html/2607.00233#bib.bib8)),他们让LLM在具有代际传递的迭代指代博弈中运行,发现初始整体性语言(每个信号命名整个对象)在代际间获得组合结构。在我们的设计中,语言不在代际间传递,而是智能体在单次运行中积累记忆。Ashery等人(2025 (https://arxiv.org/html/2607.00233#bib.bib2))表明LLM群体自发发展共享命名规约,证实规约形成动态并非人类或梯度训练系统独有。在协调方面,Akata等人(2025 (https://arxiv.org/html/2607.00233#bib.bib1))发现LLM在纯协调博弈中表现不佳,除非某种机制打破智能体间的对称性。Parsaee等人(2025 (https://arxiv.org/html/2607.00233#bib.bib16))在分布式图着色基准中报告了类似模式:无传递策略方式时智能体可能无限循环,只有当记忆结构支持涌现对称破缺时才能脱离死锁。这些结果表明,记忆架构可能是区分能协调和不能协调的LLM智能体的关键因素。然而,这些研究均未将记忆架构作为受控变量,也未将其与信道容量配对,而这正是我们在此所做的工作。
## 实验设置 ### 博弈 两个智能体进行N=200轮交互。智能体A(发送者)观察从8个对象池{红, 蓝}×{圆, 方}×{小, 大}中均匀采样的四个候选对象和一个指定目标。然后智能体A发出一个固定长度L的符号消息,该消息来自受限词汇表V。智能体B(接收者)观察相同的四个候选对象和消息,然后猜测目标。每轮结束后,两个智能体都观察到结果(正确或错误)和真实目标。沟通严格单向,智能体永不见对方的私人记忆。每轮之后,记忆更新使用反馈中揭示的真实目标。
随机准确率为0.25,因为接收者在四个候选中选择。图1 (https://arxiv.org/html/2607.00233#Sx3.F1) 说明了博弈结构,图2 (https://arxiv.org/html/2607.00233#Sx3.F2) 展示了两个智能体的提示模板。没有预分配语义,因此规约必须通过游戏涌现。
图1:指代信号博弈。每轮中,智能体A(发送者)观察四个候选对象(白色槽位)和一个指定目标(橙色),然后从词汇V发射固定长度符号消息m∈V^L。智能体B(接收者)观察相同的四个候选和消息,然后猜测目标(橙色,最初未知)。两个智能体在每轮后收到完整反馈。对象(8个池)有三个二元特征:颜色(红/蓝)、形状(圆/方)、大小(小/大)。随机准确率为0.25。与最小Lewis博弈不同,接收者始终从四个候选中选择而非整个对象空间,这创造了持续的区分压力。
### 记忆架构 我们比较五种条件。在所有条件中,每个智能体每轮收到其最近20轮(消息, 目标, 成功)交互的滚动窗口作为上下文。我们在比较记忆架构和扫描容量时将此窗口固定为20,而非暴露模型完整上下文,这样表现差异反映的是每种架构添加的持久存储,而非显示的原始历史量。随后研究3直接改变窗口大小m∈{5,10,20,40}以确认固定窗口本身不是结果的原因。条件在它们添加的内容上有所不同;表1 (https://arxiv.org/html/2607.00233#Sx3.T1) 总结了所有五种。
表1:记忆架构条件。所有五种均以最近20轮交互的滚动窗口为基础。*更新*:持久存储每轮如何变化(overwrite==完整重写;in-place==槽位编辑;env==环境编译)。每个记忆存储是智能体结构化JSON输出(strict json_schema)的一个字段:模型写入,框架解析并重新注入到下一轮的提示中,智能体从不直接调用外部工具或编辑文件。在共享的最近20轮(消息, 目标, 成功)三元组滚动窗口之上,每个智能体还输出一个理由(≤20词)。此内容仅记录用于分析,不存储在记忆中也不传输,因此接收者从发送者接收的唯一信号是消息m∈V^L。持久存储的更新方式不同。草稿本笔记本(≤150词)每轮*覆盖*:智能体重新输出整个笔记本,仅最新版本被向前传递,因此其大小不随轮次增长。代码本是一个固定容量槽位列表(10个槽位),每轮通过一个结构化操作(追加、编辑或none)*原地*编辑,条目原样保留直到被显式覆盖。codebook_meta条件添加了一个持久元笔记字符串,在短预热后以相同方式更新。只有env_board是共享的:一个公共规约表,环境从累积的成功轮次计数中编译,两个智能体均可读取但均不能编辑。每个私人存储仅对其拥有智能体可见,两个智能体永不见对方记忆。
### 信道配置 容量 = |V|^L。我们扫描|V|∈{2,3,4,5} 和 L∈{2,3},得到容量{4,8,9,16,25,27,64,125}。我们使用|V|^L作为容量度量,尽管香农容量比特数为log₂(|V|^L),两者单调相关且在不同条件下产生相同排序。模型:gpt-5.4-mini。温度:1.0(API默认)。响应格式:json_schema(严格)。轮数:200。每轮候选数:4。两个智能体(共同前言):游戏规则:每轮:(1) 发送者观察4个候选对象和指定目标;(2) 发送者发出允许词汇表中的固定长度符号消息;(3) 接收者观察4个候选和消息,然后猜测目标;(4) 两个智能体观察结果(正确/错误和真实目标)。对象:每个对象有3个特征:颜色(红/蓝)、形状(圆/方)、大小(小/大)。8个可能对象为:red_circle_small, red_circle_large, red_square_small, red_square_large, blue_circle_small, blue_circle_large, blue_square_small, blue_square_large。智能体A(发送者)信道:允许词汇:[A, B, ... 按条件定]。消息必须恰好[L]个标记。不能使用自然语言。策略:发展一致的信号到对象规约。跨轮为相同对象类型重用相同编码。不同对象应获得不同编码。使用交互记忆追踪哪些规约成功或失败。[记忆模式特定的笔记本指令。] 输出模式(仅记忆部分):``` { "tokens": ["X", "Y", ...], "rationale": "<= 20 words" } ``` [草稿本添加notebook(自由文本,≤150词)。代码本添加action∈{append, edit, none}, slot∈0–9, value(文本)。Codebook_meta还添加meta_note(单行文本)。] 输出示例(第7轮):``` { "tokens": ["A","B","A"], "rationale": "A B A maps to red_circle_small; target blue_circle_small identified by elimination." } ``` 智能体B(接收者)信道:智能体A的消息使用词汇:[A, B,相似文章
受人类启发的LLM智能体记忆架构
微软研究人员提出了一种受生物学启发的LLM智能体记忆架构,该架构结合了睡眠阶段巩固和基于干扰的遗忘机制,以高效管理持久性记忆。
从存储到经验:大语言模型智能体记忆机制演进综述
本综述论文提出了一种大语言模型(LLM)智能体记忆机制的演进框架,将其发展划分为三个阶段:存储、反思和经验。文章分析了长程一致性和持续学习等核心驱动力,旨在为下一代智能体的设计提供指导原则。
@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…
本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。
@neural_avb: 关于LLM智能体图记忆的最新论文
一篇新论文介绍了适用于LLM智能体的图记忆。
@dair_ai:关于LLM智能体长期记忆的优秀论文。(收藏)粗粒度的摘要会偏移,无约束的更新会导致信息损坏,……
AtomMem 为 LLM 智能体引入了一种长期记忆系统,将原子事实作为高效记忆单元,将其组织成层次化的事件结构和时间用户画像,在 LoCoMo 基准上达到了最先进水平。