@omarsar0: // AutoMem // 我非常喜欢这个元记忆的概念。(标记一下) 这项来自斯坦福的新研究将智能体的记忆…

X AI KOLs Timeline 2026/07/02 16:19 论文

memory-management metamemory llm-agents reinforcement-learning long-horizon-tasks open-weights

摘要

这篇斯坦福研究论文介绍了AutoMem，这是一个将智能体记忆管理视为可训练技能的框架。通过分别优化记忆结构和熟练度，AutoMem在长周期任务上将基础智能体性能提升了2到4倍，使得一个32B开源权重模型能够与Claude Opus 4.5和Gemini 3.1 Pro Thinking等前沿系统竞争。

// AutoMem // 我非常喜欢这个元记忆的想法。 (标记一下) 这项来自斯坦福的新研究将智能体的记忆管理视为可训练的技能，而不是固定模块。模型决定编码什么、何时检索以及如何组织自己的笔记，文件系统操作被提升为与任务操作并列的一等动作。 AutoMem在两个环路中自动化这个过程。一个强大的LLM审查完整轨迹并重写记忆结构（提示、模式、动作词汇）。然后智能体自己在多个回合中的良好记忆决策成为训练信号，以提高其熟练度。仅优化记忆而不触及任务动作行为，就将基础智能体在Crafter、MiniHack和NetHack上的性能提升了2到4倍。这足以使一个32B开源模型与Claude Opus 4.5和Gemini 3.1 Pro Thinking竞争。对于长周期智能体来说，记忆是一个高杠杆目标，你可以单独进行训练。 Paper: https://arxiv.org/abs/2607.01224 Learn to build effective AI agents in our academy: https://academy.dair.ai

查看原文

查看缓存全文

缓存时间: 2026/07/02 20:26

// AutoMem //

我觉得“元记忆”这个概念挺有意思的。

（收藏了）

斯坦福大学这项新研究，将智能体的记忆管理视为一种可训练的技能，而不是一个固定的模块。

模型自己决定要编码什么、何时检索、以及如何组织自己的笔记，文件系统操作被提升为与任务动作同等重要的第一类动作。

AutoMem 通过两个循环实现自动化。一个强大的 LLM 会审查完整的智能体轨迹，并重写记忆结构（提示词、模式、动作词汇）。然后，智能体自身在多个回合中做出的正确记忆决策，成为训练信号，用来提升其记忆能力。

在 Crafter、MiniHack 和 NetHack 上，仅优化记忆（不触碰任何任务-动作行为）就能将基础智能体的性能提升 2 到 4 倍，足以让一个 32B 的开源模型与 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking 竞争。对于长周期任务来说，记忆本身就是一个可以独立训练的高杠杆优化目标。

论文：https://arxiv.org/abs/2607.01224

在我们的学院学习如何构建高效的 AI 智能体：https://academy.dair.ai

AutoMem: 将记忆学习自动化，作为一种认知技能

来源：https://arxiv.org/html/2607.01224

摘要

记忆专长是一种习得的技能：知道要编码什么、何时检索、以及如何组织知识——这种能力在认知科学中被称为元记忆。我们将这一视角引入 LLM，将记忆管理视为一种可训练的技能。我们把文件系统操作提升到与任务动作同等的第一类记忆动作，让模型自己决定如何管理自己的记忆。这种记忆技能沿着两个方向提升：支撑它的结构（提示词、文件模式、动作词汇），以及使用它的模型的熟练度。这两个方向都难以手动优化：长周期任务中的单个回合可能运行数千步，一个记忆错误可能在暴露之前很久就隐藏起来，使得人类审查完整轨迹变得不切实际。我们引入了 AutoMem，一个将这两个方向都自动化的框架。在第一个循环中，一个强大的 LLM 审查完整的智能体轨迹，并迭代修订塑造智能体与其记忆文件交互方式的记忆结构。在第二个循环中，从多个回合中识别出智能体自身做出的良好记忆决策，并将其用作训练信号，直接提升模型的记忆熟练度。在三个程序化生成的长周期游戏（Crafter、MiniHack 和 NetHack）中，仅优化记忆——不修改模型的任务-动作行为——就将基础智能体的性能提升了约 2 到 4 倍，使得一个 32B 的开源模型能够与 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking 等前沿系统竞争。我们的结果表明，记忆管理是一种可独立学习的技能，是一个在长周期任务中能带来巨大收益的高杠杆优化目标。

请参阅图 1 的说明。图 1：使用 Qwen2.5-32B-Instruct 进行记忆技能优化。从配备了文件系统记忆（v0）的基础智能体开始，AutoMem 通过记忆支架优化（v0–v5/v4/v2）逐步提升性能，随后通过记忆熟练度训练（+train）在优化后的支架上产生进一步的收益。

1 引言

人类经常管理超出当前思维容量的信息。认知科学家将这种能力称为元记忆：即决定什么值得记住、何时检索、以及如何组织已知信息的学习技能（Flavell, 1979 (https://arxiv.org/html/2607.01224#bib.bib3); Nelson, 1990 (https://arxiv.org/html/2607.01224#bib.bib15)）。元记忆随着练习而发展，熟练使用外部辅助工具——笔记、索引、文件——是人类将认知扩展到工作记忆之外的一部分（Clark and Chalmers, 1998 (https://arxiv.org/html/2607.01224#bib.bib1)）。

LLM 面临着类似的瓶颈。它们的上下文窗口扮演着工作记忆的角色，即一个固定大小的缓冲区，限制了模型一次能关注的内容。长周期任务通常会超出这个容量，因此人们探索了各种形式的外部记忆，包括检索数据库、向量存储、草稿本和摘要缓冲区（Lewis et al., 2020 (https://arxiv.org/html/2607.01224#bib.bib12); Packer et al., 2023 (https://arxiv.org/html/2607.01224#bib.bib16); Park et al., 2023 (https://arxiv.org/html/2607.01224#bib.bib18); Xu et al., 2025 (https://arxiv.org/html/2607.01224#bib.bib27); Sumers et al., 2023 (https://arxiv.org/html/2607.01224#bib.bib22); Zhang et al., 2024b (https://arxiv.org/html/2607.01224#bib.bib37); Zhong et al., 2024 (https://arxiv.org/html/2607.01224#bib.bib39)）。这些方法通常将记忆视为一个架构模块：一个设计到系统中的固定机制。我们采取了一种不同的观点，一种受元记忆启发的观点：记忆管理是一种活跃的、可训练的技能，模型自己决定存储什么、查找什么以及如何构建其记录。

具体来说，我们将文件系统操作（读取、写入、搜索、追加、创建）提升为模型动作空间中的第一类记忆动作，与模型用于在世界中行动的动作处于同等地位（Yao et al., 2022 (https://arxiv.org/html/2607.01224#bib.bib29)）。选择任务动作的同一前向传播也可以选择记忆文件操作（例如，<|APPEND|> 或 <|SEARCH|>）。这种极简的设计赋予了模型对其外部记忆的完全控制权，同时使行为保持清晰可观察：每一个记忆决策都是轨迹中一个可追溯的动作。

习得的记忆技能沿着两个方向改进。首先，是支撑它的结构（提示词、文件模式、验证逻辑、动作词汇），它决定了哪些记忆操作可用，以及如何引导模型使用它们。其次，是运用该技能的智能体的熟练度——模型在可用操作中做出良好决策的参数化能力。

这两个方向都难以手动优化。单个回合可能运行数万步，一个记忆操作（或错误）的影响可能隐藏很多步，直到它作为指导信号或未实现的目标才浮出水面。因此，在长周期任务中学习记忆技能对人类审查来说几乎是不可行的。

我们方法背后的关键观察是，一个足够强大的 LLM——作为元 LLM——可以审查智能体的完整回合（跨越数千步），并识别记忆决策出错的地方，就像代码审查员阅读完整的执行日志一样。这使得自动化记忆改进的两个方向成为可能。我们引入了 AutoMem（图 3 (https://arxiv.org/html/2607.01224#S2.F3)），它通过两个顺序的外循环来实现这一点，这两个循环操作于一个共享的内循环智能体，该智能体使用文件系统作为其记忆。

在第一个循环（结构）中，一个元 LLM 读取完整的回合轨迹，诊断智能体记忆使用中的失败模式，并迭代修订智能体支架：即塑造智能体如何与记忆交互以及如何在世界中行动的代码、提示词和记忆文件模式。

在第二个循环（熟练度）中，审查来自多个回合的智能体自身记忆决策，并选择值得强化的那些——同样由元 LLM 完成——作为专用记忆模型的监督训练数据。同一个元 LLM 还协调吸收这些数据的微调配置。由于我们将记忆视为一种可分离的技能，我们仅微调一个专用的记忆模型（记忆专家），而执行世界动作的模型保持不变，从而在不对智能体现有任务能力造成风险的前提下提升记忆熟练度。

两个循环连接着一个共同的原则：长周期任务的改进可以分解为轨迹级别的审查和有针对性的修订——这是一个强大的元 LLM 可以自主执行的工作流程，而由人类审查完整的轨迹（多达 10^5 步）是不切实际的。第一个循环将此原则应用于修订代码；第二个循环将其应用于筛选训练数据并协调训练本身。

请参阅图 2 的说明。图 2：用于评估记忆技能的长周期游戏环境。所有三个环境都是随机世界，使每个回合独一无二，并将预训练知识的影响降至最低。Crafter 是一个开放世界生存游戏，包含制作、战斗和资源管理。MiniHack 在 NetHack 引擎中呈现有重点的解谜、导航和战斗任务。NetHack 是最复杂的游戏之一：回合跨度从 10^4 到 10^5 步，探索空间巨大，人类玩家通常需要数年才能掌握。我们在程序化生成的长周期游戏上进行评估，这些游戏非常适合研究记忆技能：回合足够长，以至于仅靠上下文窗口管理无法维持性能；世界在每个回合都会重新生成，因此预训练知识难以迁移（Paglieri et al., 2024 (https://arxiv.org/html/2607.01224#bib.bib17)）；并且成功需要人类自然会做的那种记录——例如地图、库存、遭遇日志、策略笔记。我们选择了三个复杂度各异的环境（图 2 (https://arxiv.org/html/2607.01224#S1.F2)）：Crafter，一个包含制作和资源管理的开放世界生存游戏（Hafner, 2021 (https://arxiv.org/html/2607.01224#bib.bib4)）；MiniHack，一系列有重点的解谜、导航和战斗任务（Samvelyan et al., 2021 (https://arxiv.org/html/2607.01224#bib.bib20)）；以及 NetHack，一个回合数在 10^4 到 10^5 步的 roguelike 游戏，人类玩家需要数年才能掌握（Küttler et al., 2020 (https://arxiv.org/html/2607.01224#bib.bib10)）。

使用 Qwen2.5-32B-Instruct 作为基础模型，在不修改模型的任务-动作权重的情况下，仅优化记忆，完整的 AutoMem 框架使得性能相对于基础智能体提升了约 2 到 4 倍（表 1 (https://arxiv.org/html/2607.01224#S3.T1), 图 1 (https://arxiv.org/html/2607.01224#S0.F1)）。优化后的 32B 智能体在所有三个游戏上大幅优于 Qwen2.5-72B-Instruct，这表明在这些任务上，管理良好的记忆比模型规模具有更高的杠杆作用。它的性能也达到了 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking 等前沿专有系统的水平——这表明在长周期任务上，开源模型与前沿模型之间的差距可以通过将记忆作为优化目标来大幅缩小。

贡献.

(i) 我们将记忆管理形式化为 LLM 智能体的一种可独立学习的技能，通过将文件系统操作置于与任务动作相同的动作空间中来实现，赋予模型对编码什么、何时检索以及如何组织记忆的完全、可观察的控制权。
(ii) 我们引入了 AutoMem，一个在两个互补方向上自动化记忆技能改进的框架：迭代修改智能体记忆结构的支架修订，以及基于智能体自身经验对模型记忆熟练度进行有针对性的训练。两个循环都由分析完整回合轨迹的元 LLM 驱动，使得在人类审查完整轨迹不可行的情况下，长周期优化变得可行。
(iii) 在三个程序化生成的长周期游戏中，针对记忆进行优化使得一个 32B 的开源模型获得了约 2 到 4 倍的性能提升，显著缩小了与前沿专有系统的差距，并证明了记忆是长周期任务的一个高杠杆优化目标。

2 AutoMem

如上所述，记忆技能沿着两个方向改进——结构和熟练度——这两个方向都需要自动化才能在长周期任务上进行优化。AutoMem 通过两个顺序的外循环提供这种自动化，这两个循环操作于一个共享的内循环智能体（图 3 (https://arxiv.org/html/2607.01224#S2.F3)）。第一个循环将智能体支架推到代码修订所能达到的极限；第二个循环训练模型的记忆能力，超越任何固定支架的天花板。

请参阅图 3 的说明。图 3：AutoMem 概述。两个自动化的外循环优化一个共享的内循环智能体，该智能体使用文件系统作为其记忆。外循环 #1（顶部）：一个元 LLM 审查完整的回合轨迹，并迭代修订智能体支架。外循环 #2（底部）：一个元 LLM（训练引擎）共同协调数据筛选和微调配置，以训练一个专门的记忆专家来处理记忆操作，而任务模型（冻结，未修改）则提交任务动作。这两个循环是互补的：循环 #1 产生一个优化后的支架，循环 #2 在这个支架内训练模型更有效地与其记忆进行交互。

2.1 内循环智能体：记忆作为文件系统

内循环是一个执行长周期任务单回合的单一 LLM 智能体，配备一个作为其外部记忆的磁盘文件目录（图 3 中部的灰色区域）。每一步，智能体运行两个例程，分别针对记忆管理的一个方面。LOG 例程提出“关于刚刚发生的事情，有什么值得记录的”：智能体决定是否以及如何记录环境对前一个动作的响应，例如，追加到现有文件、创建新文件或重写条目。PLAN 例程提出“我现在需要回忆什么才能行动”：智能体在文件中搜索，读取特定条目或它们的尾部，并提交下一个世界动作。

这种统一的动作空间正是使记忆成为一种可学习技能而非固定机制的原因。文件系统基础为模型提供了广泛的决策空间——保留哪些文件、在每份文件中记录什么、何时查阅它们、如何组织已知信息——并且由于每个记忆决策都是轨迹中一个可追溯的动作，外循环可以观察、评估并优化它。

由于这种共享空间，正如我们的实验（第 3.2 节）所证实的，优化记忆结构也会改善任务行为（例如，游戏动作）：更好组织的记忆减少了冗余探索和盲目行动，即使优化器直接针对的是记忆支架而非任务策略。

2.2 外循环 1：优化记忆支架

第一个外循环优化支撑记忆技能的结构。智能体支架，即塑造智能体如何管理记忆和在世界中行动的代码、提示词、文件模式和动作词汇，由元 LLM 进行迭代修订。

优化信号必须是轨迹级别的，因为在长周期任务中，记忆决策的后果往往是延迟的。在第 50 步犯的一个记忆错误——未能记录地图坐标，或者写入了埋没有用信息的重复条目——可能要到很晚之后（例如，第 800 步）才会显现出来，此时智能体会迷路或浪费时间重新探索。仅凭最终回报指标会丢弃揭示在哪里记忆出错的轨迹结构。

因此，元 LLM 被提供完整的回合轨迹（每一步的日志、由此产生的记忆目录以及智能体代码本身），并识别支架导致失败的节点。它的功能类似于手握完整执行日志的代码审查员，而不是一个标量奖励信号。例如，在审查 NetHack 轨迹时，元 LLM 发现一个无限制的地图文件积累了数千个重复的坐标条目，埋没了有用信息；作为回应，它引入了一种干净的、以坐标为键的地图去重格式（图 5 (https://arxiv.org/html/2607.01224#S3.F5)），显著缩小了智能体必须携带的地图大小。

每次迭代都以可衡量的改进为门槛：重写的智能体在与上一版本相同的固定随机种子下运行，只有当平均进展指标改善时，修订才会被保留。

@omarsar0: // AutoMem // 我非常喜欢这个元记忆的概念。(标记一下) 这项来自斯坦福的新研究将智能体的记忆…

AutoMem: 将记忆学习自动化，作为一种认知技能

摘要

1 引言

贡献.

2 AutoMem

2.1 内循环智能体：记忆作为文件系统

2.2 外循环 1：优化记忆支架

相似文章

AutoMem: 作为认知技能的记忆自动化学习

AdMem：面向任务求解智能体的高级记忆系统

rohitg00/agentmemory

Agentmemory

从多模态经验中学会学习

提交意见反馈