AutoMem: 作为认知技能的记忆自动化学习

arXiv cs.AI 2026/07/02 04:00 论文

llm memory-management long-horizon-tasks metamemory automated-learning cognitive-skill agent

摘要

AutoMem 引入了一个框架，将记忆管理作为 LLM 的可训练技能进行自动化学习，通过优化记忆结构和熟练度，将长期任务的性能提升 2-4 倍。

arXiv:2607.01224v1 公告类型: 新摘要: 记忆专长是一种习得技能：知道编码什么、何时检索以及如何组织知识——这种能力在认知科学中称为元记忆。我们将这一视角引入 LLM，将记忆管理视为一种可训练的技能。我们将文件系统操作提升为与任务操作并列的一级记忆动作，让模型自己决定如何管理其记忆。这种记忆技能沿着两个维度提升：支持它的结构（提示、文件模式、动作词汇）以及运用它的模型的熟练度。这两个维度都难以手动优化：长期任务中的情节运行数千步，一个记忆错误可能在显现前很久就被隐藏，使得人工审查完整轨迹不切实际。我们引入了 AutoMem，一个自动化这两个维度的框架。在第一个循环中，一个强大的 LLM 审查完整的智能体轨迹，并迭代地修订塑造智能体与其记忆文件交互方式的记忆结构。在第二个循环中，从多个情节中识别智能体自身良好的记忆决策，并作为训练信号直接提升模型的记忆熟练度。在三个程序生成的长期游戏（Crafter、MiniHack 和 NetHack）中，仅优化记忆——而不修改模型的任务动作行为——将基础智能体的性能提升了约 2-4 倍，使得一个 32B 开放权重模型与前沿系统（如 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking）竞争。我们的结果表明，记忆管理是一种独立可学习的技能，并且是一个高杠杆目标，能够在长期任务中产生巨大收益。

查看原文

查看缓存全文

缓存时间: 2026/07/02 05:41

# AutoMem：记忆作为认知技能的自动化学习
来源：https://arxiv.org/html/2607.01224
###### 摘要

记忆专长是一种习得的技能：知道该编码什么、何时检索、以及如何组织知识——这种能力在认知科学中被称为元记忆（metamemory）。我们将这一视角引入大语言模型（LLM），将记忆管理视为一种可训练的技能。通过将文件系统操作提升为与任务动作同等重要的第一类记忆动作，我们让模型自行决定如何管理其记忆。这种记忆技能沿着两个维度提升：支撑它的**结构**（提示词、文件模式、动作词汇），以及运用该技能的模型的**熟练度**。这两个维度都无法通过手动优化解决：长周期任务中的单个回合可能运行数千步，而一次记忆错误可能在很久之后才显现，使得人类审查完整轨迹变得不切实际。我们提出**AutoMem**，一个能够**自动化**这两个维度的框架。在第一个循环中，一个强大的大语言模型审查完整的智能体轨迹，并迭代修改塑造智能体与其记忆文件交互方式的记忆**结构**。在第二个循环中，从多个回合中识别出智能体自身做出的良好记忆决策，并将其用作训练信号，直接提升模型的记忆**熟练度**。在三个程序化生成的长周期游戏（Crafter、MiniHack 和 NetHack）中，仅优化记忆——不修改模型的任动动作行为——就将基础智能体的性能提升了约 2 倍到 4 倍，使一个 32B 开源模型能够与 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking 等前沿系统竞争。我们的结果表明，记忆管理是一种可独立学习的技能，也是一个能在长周期任务上产生巨大收益的高杠杆优化目标。

参照图 1：**使用 Qwen2.5-32B-Instruct 进行记忆技能优化**。从配备文件系统记忆的基础智能体（v0）开始，AutoMem 通过**记忆支架优化**（v0–v5/v4/v2）逐步提升性能，随后进行**记忆熟练度训练**（+train），在优化后的支架基础上带来进一步收益。

## 1 引言

人类通常需要管理超出当下心智所能容纳的信息。认知科学家将这种能力称为**元记忆**（metamemory）：即决定什么值得记住、何时检索以及如何组织已知信息的习得技能（Flavell, 1979 (https://arxiv.org/html/2607.01224#bib.bib3)；Nelson, 1990 (https://arxiv.org/html/2607.01224#bib.bib15)）。元记忆通过练习而发展，熟练使用外部辅助工具（笔记、索引、文件）是人类将认知扩展到工作记忆之外的一种方式（Clark and Chalmers, 1998 (https://arxiv.org/html/2607.01224#bib.bib1)）。

大语言模型面临着类似的瓶颈。它们的上下文窗口扮演着工作记忆的角色，即一个固定大小的缓冲区，限制了模型一次能关注的内容。长周期任务通常会超出这一容量，因此人们探索了多种形式的外部记忆，包括检索数据库、向量存储、暂存器和摘要缓冲区（Lewis et al., 2020 (https://arxiv.org/html/2607.01224#bib.bib12)；Packer et al., 2023 (https://arxiv.org/html/2607.01224#bib.bib16)；Park et al., 2023 (https://arxiv.org/html/2607.01224#bib.bib18)；Xu et al., 2025 (https://arxiv.org/html/2607.01224#bib.bib27)；Sumers et al., 2023 (https://arxiv.org/html/2607.01224#bib.bib22)；Zhang et al., 2024b (https://arxiv.org/html/2607.01224#bib.bib37)；Zhong et al., 2024 (https://arxiv.org/html/2607.01224#bib.bib39)）。这些方法通常将记忆视为一个架构模块：即系统中设计好的固定机制。我们采取了一种不同的观点，其灵感来源于**元记忆**：记忆管理是一种主动的、可训练的技能，模型自行决定存储什么、查找什么以及如何组织其记录。

具体来说，我们将文件系统操作（读、写、搜索、追加、创建）提升为模型动作空间中的**第一类记忆动作**，与模型用于与世界交互的动作处于同等地位（Yao et al., 2022 (https://arxiv.org/html/2607.01224#bib.bib29)）。选择任务动作的同一个前向传播过程也可以选择记忆文件操作（例如，`<|APPEND|>` 或 `<|SEARCH|>`）。这种极简的设计使模型能够完全控制其外部记忆，同时保持行为的清晰可观察性：每个记忆决策都是轨迹中一个可追踪的动作。

习得的记忆技能沿着两个维度提升。首先，是支撑它的**结构**（提示词、文件模式、验证逻辑、动作词汇），它决定了哪些记忆操作可用以及如何引导模型使用它们。其次，是运用该技能的智能体的**熟练度**——模型在可用操作中做出良好决策的参数化能力。

这两个维度都难以手动优化。单个回合可能运行数万步，而一个记忆操作（或错误）的影响可能在许多步之后才显现为引导信号或错失的目标。因此，在长周期任务中学习记忆技能对人类审查来说几乎是不可行的。

我们方法背后的关键观察是：一个足够强大的大语言模型——作为**元大语言模型**（meta-LLM）——可以审查智能体的完整回合（跨越数千步）并识别出记忆决策出错的地方，就像代码审查者阅读完整的执行日志一样。这使得**自动优化**记忆的两个维度成为可能。我们提出 **AutoMem**（图 3 (https://arxiv.org/html/2607.01224#S2.F3)），它通过两个顺序执行的外层循环来实现，这些循环作用于一个共享的内层循环智能体，该智能体使用文件系统作为其记忆。

在第一个循环（结构）中，元大语言模型读取完整的回合轨迹，诊断智能体记忆使用中的失败模式，并迭代修改智能体**支架**（scaffold）：即代码、提示词和记忆文件模式，这些塑造了智能体与记忆交互以及与世界交互的方式。

在第二个循环（熟练度）中，从多个回合中审查智能体自身的记忆决策，并选择那些值得强化的决策——同样由元大语言模型选择——作为专门记忆模型的监督训练数据。同一个元大语言模型还编排吸收这些数据的微调配置。由于我们将记忆视为一种可分离的技能，我们只微调一个专门的记忆模型（记忆专家），而执行世界动作的模型保持不变，从而在提升记忆熟练度的同时，不危及智能体现有的任务能力。

一个共同的原理连接着两个循环：长周期任务的改进可以分解为轨迹级别的审查和有针对性的修订——这是一个强大的元大语言模型可以自主执行的工作流，而人类审查完整的轨迹（多达 10^5 步）是不切实际的。第一个循环将这一原理应用于修改代码；第二个循环则将其应用于整理训练数据并编排训练本身。

参照图 2：**用于评估记忆技能的长周期游戏环境**。所有三个环境都是随机世界，使得每个回合独一无二，并最大程度减少了预训练知识的影响。**Crafter** 是一个包含制作、战斗和资源管理的开放世界生存游戏。**MiniHack** 在 NetHack 引擎中呈现了集中的解谜、导航和战斗任务。**NetHack** 是最复杂的游戏之一：回合跨越 10^4 到 10^5 步，探索空间巨大，人类玩家通常需要数年才能掌握。我们在程序化生成的长周期游戏上进行评估，这些游戏非常适合研究记忆技能：回合足够长，仅靠上下文窗口管理无法维持性能；每个回合世界都会重新生成，因此预训练知识迁移效果较差（Paglieri et al., 2024 (https://arxiv.org/html/2607.01224#bib.bib17)）；成功需要人类自然保持的那种记录——例如地图、库存、遭遇日志、策略笔记。我们选择了三个复杂度各异的环境（图 2 (https://arxiv.org/html/2607.01224#S1.F2)）：**Crafter**，一个包含制作和资源管理的开放世界生存游戏（Hafner, 2021 (https://arxiv.org/html/2607.01224#bib.bib4)）；**MiniHack**，一套集中的解谜、导航和战斗任务（Samvelyan et al., 2021 (https://arxiv.org/html/2607.01224#bib.bib20)）；以及 **NetHack**，一个 Rogue-like 游戏，其 10^4 到 10^5 步的回合需要人类玩家数年才能掌握（Küttler et al., 2020 (https://arxiv.org/html/2607.01224#bib.bib10)）。

使用 **Qwen2.5-32B-Instruct** 作为基础模型，仅优化记忆——不修改模型的任动动作权重——完整的 AutoMem 框架在基础智能体基础上带来了约 2 倍到 4 倍的提升（表 1 (https://arxiv.org/html/2607.01224#S3.T1)，图 1 (https://arxiv.org/html/2607.01224#S0.F1)）。优化后的 32B 智能体在所有三个游戏上大幅超越 Qwen2.5-72B-Instruct，这表明在这些任务上，**管理良好的记忆比模型规模具有更高的杠杆作用**。它还达到了 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking 等前沿专有系统的性能水平——表明通过将记忆作为优化目标，可以大幅缩小开源模型与前沿模型在长周期任务上的差距。

#### 贡献。

* (i) 我们将记忆管理表述为大语言模型智能体的一种可独立学习的技能，通过位于与任务动作相同动作空间中的文件系统操作实现，赋予模型对编码什么、何时检索以及如何组织记忆的完全、可观察的控制权。
* (ii) 我们提出 **AutoMem**，一个沿两个互补维度自动化记忆技能提升的框架：迭代修改智能体记忆结构的支架修订，以及基于模型自身经验对模型记忆熟练度进行针对性训练。两个循环均由元大语言模型驱动，它们分析完整的回合轨迹，使得在人类无法审查完整轨迹的情况下进行长周期优化成为可能。
* (iii) 在三个程序化生成的长周期游戏中，以记忆为目标为 32B 开源模型带来了约 2 倍到 4 倍的进度提升，显著缩小了与前沿专有系统的差距，并证明了记忆是长周期任务的一个高杠杆优化目标。

## 2 AutoMem

如上所述，记忆技能沿着两个维度——**结构**和**熟练度**——提升，这两个维度都需要自动化才能在长周期任务上进行优化。**AutoMem** 通过两个顺序执行的外层循环提供这种自动化，这些循环作用于一个共享的内层循环智能体（图 3 (https://arxiv.org/html/2607.01224#S2.F3)）。第一个循环将智能体支架推到代码修订所能达到的极限；第二个循环训练模型的记忆能力，使其超越任何固定支架的天花板。

参照图 3：**AutoMem 概览**。两个自动化的外层循环优化一个共享的内层循环智能体，该智能体使用文件系统作为其记忆。**外循环 #1**（顶部）：元大语言模型审查完整的回合轨迹并迭代修改智能体支架。**外循环 #2**（底部）：元大语言模型**训练引擎**联合编排数据整理和微调配置，以训练一个专门的**记忆专家**来处理记忆操作，而**任务模型**（冻结、未修改）负责执行任务动作。两个循环是互补的：循环 #1 产生一个优化的支架，在该支架内，循环 #2 训练模型更有效地与其记忆交互。

### 2.1 内层循环智能体：记忆即文件系统

内层循环是一个执行长周期任务单个回合的大语言模型智能体，配备磁盘上的文件目录作为其外部记忆（图 3 中间的灰色区域）。在每个步骤中，智能体运行两个例程，每个例程针对记忆管理的一个方面。**LOG** 例程询问“关于刚刚发生的事情，什么值得记录”：智能体决定是否以及如何记录环境对前一个动作的响应，例如追加到现有文件、创建新文件或重写条目。**PLAN** 例程询问“我需要回忆什么才能现在行动”：智能体搜索文件、读取特定条目或其尾部，并提交下一个世界动作。

这种统一的动作空间正是使记忆成为一种可学习技能而非固定机制的原因。文件系统基础为模型提供了广阔的决策空间——保留哪些文件、在每个文件中记录什么、何时查阅它们、如何组织已知信息——并且由于每个记忆决策都是轨迹中一个可追踪的动作，外层循环可以观察、评估并优化它。

由于这种共享空间，我们的实验结果表明（第 3.2 节），**优化记忆结构也会改善任务行为**（例如，游戏玩法动作）：组织得更好的记忆减少了冗余探索和无方向动作，即使优化器直接针对的是记忆支架而非任务策略。

### 2.2 外循环 1：优化记忆支架

第一个外循环优化支持记忆技能的**结构**。智能体**支架**（scaffold），即塑造智能体如何管理记忆以及与世界交互的代码、提示词、文件模式和动作词汇，由元大语言模型迭代修改。

优化信号必须是轨迹级别的，因为记忆决策的后果在长周期任务中往往是延迟的。在第 50 步犯下的记忆错误——未能记录一个地图坐标，或者写入一个重复条目从而埋没了有用信息——可能要到很晚之后（例如，第 800 步）才会显现，此时智能体已经迷路或浪费时间重新探索。仅凭最终回报指标会丢弃揭示记忆**在哪里**出错的轨迹结构。

因此，元大语言模型被赋予完整的回合轨迹（每步日志、生成的记忆目录以及智能体代码本身），并识别支架导致失败的节点。它就像一个持有完整执行日志的代码审查者，而不是一个标量奖励信号。例如，在审查 NetHack 轨迹时，元大语言模型发现一个无边界的地图文件积累了数千个重复的坐标条目，埋没了有用信息；它通过引入一个干净的、以坐标键控的地图去重格式（图 5 (https://arxiv.org/html/2607.01224#S3.F5)）来应对，从而大幅缩小了智能体必须携带的地图。

每次迭代都以测量到的改进为门槛：重写的智能体在相同的固定种子上运行，只有平均进度有所提升时，修订才会被保留。关于门槛和重试机制的详细信息见附录 A.2 (https://arxiv.org/html/2607.01224#A1.SS2)。在大致“收敛”时（实践中，如图 1 所示，例如 2-5 次迭代后），支架已经吸收了代码修订所能表达的内容。优化器在各次迭代中产生的具体修订在第 3.2 节中讨论，并列出在附录 B 中。图 5 展示了记忆文件模式如何演变。给定一个已经精炼且结构良好的智能体支架，模型在导航其记忆方面的参数化能力就成为阻碍做出最优记忆决策的主要瓶颈。

### 2.3 外循环 2：训练记忆熟练度

一旦支架得到优化，剩余差距就在于模型做出良好记忆决策的参数化能力——即**熟练度**维度。第一个循环通过元大语言模型作为审查者来修订代码，而这个循环则更新模型权重，利用智能体自身的经验。

AutoMem: 作为认知技能的记忆自动化学习

相似文章

@omarsar0: // AutoMem // 我非常喜欢这个元记忆的概念。(标记一下) 这项来自斯坦福的新研究将智能体的记忆…

从多模态经验中学会学习

EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构

AdMem：面向任务求解智能体的高级记忆系统

ActiveMem：面向长程LLM推理的分布式主动记忆

提交意见反馈