经验压缩谱：统一LLM Agent的记忆、技能与规则

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本文提出经验压缩谱，这是一个统一框架，将agent记忆、技能发现和基于规则的系统沿单一递增压缩轴集成（情景记忆5-20倍，程序性技能50-500倍，声明性规则1000倍以上）。工作识别出一个关键缺口——‘缺失对角线’——表明现有系统在固定压缩级别运行，缺乏自适应跨级别支持，并阐述了可扩展全谱agent学习系统的设计原则。

arXiv:2604.15877v1 Announce Type: cross 摘要：随着LLM agent扩展到长时域、多会话部署，高效管理积累的经验成为关键瓶颈。Agent记忆系统与agent技能发现都致力于解决这一挑战——从交互痕迹中提取可复用知识——然而，对22篇主要论文中1136篇参考文献的引用分析显示，跨社区的引用率低于1%。我们提出\emph{经验压缩谱}，这是一个统一框架，将记忆、技能和规则定位在单一递增压缩轴上（情景记忆5--20$\times$，程序性技能50--500$\times$，声明性规则1000$\times$+），直接降低上下文消耗、检索延迟和计算开销。将20多个系统映射到该谱系后，发现每个系统都在固定、预定的压缩级别运行——没有一个支持自适应跨级别压缩，我们将这一缺口称为\emph{缺失对角线}。我们进一步表明，仅靠专业化是不够的——两个社区独立解决共享的子问题而不交换解决方案——评估方法与压缩级别紧密耦合，可迁移性随着压缩增加而提高但以特异性为代价，且知识生命周期管理在很大程度上被忽视。我们阐述了可扩展全谱agent学习系统的开放问题和设计原则。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:30

# 统一 LLM Agent 中的记忆、技能与规则 来源：https://arxiv.org/html/2604.15877 ## 经验压缩谱：统一 LLM Agent 中的记忆、技能与规则 ###### 摘要 随着 LLM Agent 从单次会话演示扩展到长期、多会话部署，高效管理积累的经验成为了关键瓶颈。Agent 记忆系统和 Agent 技能发现都致力于解决这一挑战——从交互轨迹中提取可复用的知识——然而，对涵盖 22 篇主要论文的 1,136 条引用进行的引用分析显示，跨社区的引用率低于 1%。我们提出了 *经验压缩谱*，这是一个统一框架，将记忆、技能和规则定位在单一压缩率递增的轴上（情景记忆为 5–20 倍，程序性技能为 50–500 倍，陈述性规则为 1,000 倍以上），直接减少了上下文消耗、检索延迟和计算开销。将 20 多个系统映射到该谱系后发现，每个系统都在一个固定的、预设的压缩级别上运行——没有一个支持自适应的跨级别压缩，我们将这一差距称为 *缺失对角线*。我们还进一步表明，仅靠专门化是不够的——这两个社区独立解决共享的子问题，却不交换解决方案；评估方法与压缩级别紧密耦合；可迁移性随着压缩率的提高而增加，但牺牲了特异性；而知识生命周期管理在很大程度上被忽视。我们阐述了可扩展的全谱系 Agent 学习系统的开放问题和设计原则。 LLM Agent，经验压缩，Agent 记忆，技能发现，高效 Agent 系统，可扩展学习 级别 0 原始轨迹 1:1 级别 1 情景记忆 5–20 倍 级别 2 程序性技能 50–500 倍 级别 3 陈述性规则 1000 倍以上 提取 抽象 泛化 对话日志 执行轨迹 MemSkill, Mem0 A-MEM, MemoryOS ALMA, MemMAMemory-R1, Mem-α MemPO, SSG Voyager, SkillWeaver EvoSkill, Trace2Skill AutoSkill, SkillRL CASCADE, EvolveR *（基本为空）* 宪法性 AI（仅预指定） 缺失对角线 ExpeL, AutoAgent（跨级别，但固定） 泛化性 ⟶ ⟵ 特异性 图 1：经验压缩谱。现有的 Agent 学习系统映射到从原始轨迹到抽象规则的单一轴上。记忆系统聚集在级别 1，技能系统在级别 2，级别 3 基本为空。少量跨级别系统（虚线）连接了级别 1–2，但没有一个支持自适应级别选择。压缩率是近似值。 ## 1 引言 随着 LLM Agent 从单次会话演示转向持久、长期部署，它们积累了大量的交互经验。一个每天处理数千项任务的 Agent 生成的轨迹会迅速超过任何实际上下文窗口或检索预算，这使得高效的经验管理成为首要的可扩展性挑战。两个研究社区已着手解决这一问题：*Agent 记忆*社区开发了从交互经验中提取和检索经验知识的系统 (Hu et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib10); Kang et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib13); Packer et al., 2023 (https://arxiv.org/html/2604.15877#bib.bib25))，而 *Agent 技能*社区则构建了从执行轨迹中发现和重用程序性能力的框架 (Wang et al., 2023 (https://arxiv.org/html/2604.15877#bib.bib27); Zheng et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib44); Alzubi et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib1))。尽管解决的是同一基本问题——从交互经验中提取可复用知识——但这些社区之间却惊人地脱节。对 22 篇主要论文的 1,136 条引用进行的引用分析显示，跨社区引用率低于 1%。记忆论文引用技能方面的工作占 0.7%（4/566）；技能论文引用记忆方面的工作占 1.2%（7/570）。技能综述 (Jiang et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib12); Xu & Yan, 2026 (https://arxiv.org/html/2604.15877#bib.bib33)) 均未引用任何记忆系统，而只有一篇记忆综述 (Yang et al., 2026a (https://arxiv.org/html/2604.15877#bib.bib36)) 引用了技能方面的工作（仅 Voyager）。这种分离反映了一个概念上的差距，限制了可扩展 Agent 系统的设计。 范围。我们研究的是在*框架层*提取的知识——即模型权重之外的运行时系统。训练时的方法（RLHF (Ouyang et al., 2022 (https://arxiv.org/html/2604.15877#bib.bib24))，宪法性 AI）是补充性的，但不在本文讨论范围内。我们的关键观察是，记忆提取和技能发现是同一操作的不同实例：以不同粒度将*交互经验压缩成可复用的知识*。*记忆*系统提取结构化的事件记录（约 10 倍压缩）；*技能*系统提取可复用的行为模式（约 100 倍）；*规则*系统提取抽象的决策原则（约 1,000 倍以上）。这不是三个独立的问题——它们是单一 *经验压缩谱*上的三个点，其中更高的压缩直接转化为更低的上下文消耗、更快的检索和更低的每次决策计算开销。 这一观察有认知科学方面的类似物。互补学习系统 (CLS) 理论 (McClelland et al., 1995 (https://arxiv.org/html/2604.15877#bib.bib20)) 描述了海马体如何快速编码情景记忆，这些记忆逐渐巩固到新皮层知识中——一个生物学的压缩谱，暗示 Agent 系统应在空闲时间执行向上压缩。ACT-R 的陈述性–程序性区分 (Anderson, 1983 (https://arxiv.org/html/2604.15877#bib.bib2)) 对应于我们的 L1/L2 边界，而 Fitts & Posner (1967 (https://arxiv.org/html/2604.15877#bib.bib8)) 的技能习得理论表明知识是*双向*流动的——显式规则通过练习编译成自动程序——这是当前没有任何系统支持的属性。实践者已经手动执行全谱系压缩：数十万开发者维护着 `CLAUDE.md` 和 `.cursorrules` 文件，这些文件将部署经验提炼为可复用的规则（L0→L3）。然而，没有系统能自动化这一过程；每个系统都在一个单一的、预设的压缩级别上运行。 贡献。我们 (1) 形式化了经验压缩谱，将 Agent 记忆、技能和规则统一在单一压缩轴上（第 2 节 (https://arxiv.org/html/2604.15877#S2)）；(2) 将 20 多个系统映射到该谱系，揭示没有一个支持自适应跨级别压缩——即“缺失对角线”（第 2 节 (https://arxiv.org/html/2604.15877#S2)）；(3) 量化了社区脱节（<<1% 跨引用），并揭示了从任一社区内部无法观察到的四个结构性洞察（第 3 节 (https://arxiv.org/html/2604.15877#S3)）；以及 (4) 阐述了可扩展、全谱系 Agent 学习的开放问题和设计原则（第 4 节 (https://arxiv.org/html/2604.15877#S4)）。 ## 2 经验压缩谱 我们形式化了一个四级谱系，描述交互经验如何被逐步压缩成越来越抽象和可复用的知识。 ### 2.1 形式化框架 ###### 定义 2.1（交互轨迹）。交互轨迹 T = { (s_t, a_t, o_t, f_t) }_{t=1}^N 是在 Agent 执行期间收集的状态 s_t、动作 a_t、观察 o_t 和反馈信号 f_t 的序列。 ###### 定义 2.2（经验压缩函数）。经验压缩函数 C_L: T → K_L 将轨迹映射到压缩级别 L ∈ {0,1,2,3} 的知识工件。四个级别为： #### 级别 0 — 原始轨迹。未压缩的交互记录。格式：完整日志、执行轨迹。压缩率：1:1。可复用性：极低——完全受限于上下文。 #### 级别 1 — 情景记忆。对*发生了什么*的结构化提取，保留关键上下文细节同时丢弃冗余的交互机制。格式：键值对、带时间戳的事件摘要（例如，“[2026-03-15] 用户请求使用 SQL 进行 Q3 收入分析。偏好表格格式。”）。压缩率：约 5–20 倍。可复用性：低到中等——与特定情节绑定。 #### 级别 2 — 程序性技能。提取在某一类情境中*如何行动*，跨实例抽象成可复用的行为模式。格式：结构化例程、代码片段、工作流模板（例如，“数据分析：(1) 确认来源，(2) 选择工具，(3) 以偏好格式呈现，(4) 验证。”）。压缩率：约 50–500 倍。可复用性：高——可跨类似情境迁移。 #### 级别 3 — 陈述性规则。提取*支配决策的原则*——领域不变的知识。格式：自然语言原则、约束、策略（例如，“在呈现之前，务必根据源数据验证计算结果。”）。压缩率：约 1000 倍以上。可复用性：最高——领域通用，但可能缺乏可操作的特异性。 ### 2.2 谱系的属性 四个级别在三个维度上表现出系统性的权衡，每个维度都有直接的效率影响。 泛化性与特异性。随着压缩率的增加（L0→L3），知识变得更广泛适用，但上下文特异性降低。 压缩率与信息保留。更高的级别通过*语义抽象*丢弃更多上下文细节：识别哪些模式可泛化，哪些是偶然的。具体例子：Mem0 (Chhikara et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib6)) 将多会话对话历史（约 26,000 tokens）压缩为检索到的记忆条目（约 1,800 tokens）——在 L1 上大约 15 倍。Trace2Skill (Ni et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib22)) 通过 128 个并法子代理将来自 200 个任务的轨迹提炼成一个紧凑的技能目录——在 L2 上大约 100–500 倍。 获取成本与维护成本。L1 记忆获取成本低（单条轨迹）但大规模维护成本高——一个仅使用 L1 的系统每天积累数千条条目，将在数周内耗尽任何实际检索预算。L3 规则需要大量轨迹才能归纳，但形成一个紧凑、低维护的集合。这种权衡使得向上压缩对于在长时间部署中以规模运行的 Agent 来说不仅是可取的，而且是*必需的*。量化一下：一个仅使用 L1 的 Agent 存储 1,000 个情节，每个约 500 tokens，维护一个约 500K 令牌的知识库，每次决策都需要索引和搜索。压缩为 L2 技能可将此减少到约 5K tokens；压缩为 L3 规则，约 500 tokens——存储和检索开销减少 100–1,000 倍，这在每天数千次决策中会累积起来。 关键的是，这些不是顺序的流水线阶段。系统可以直接从 L0→L3 进行压缩，或者同时维护多个级别的知识。谱系描述的是*输出空间*，而非固定的处理顺序。 ### 2.3 映射现有系统 我们选择那些 (a) 从交互轨迹中学习（排除预指定规则），(b) 产生持久知识工件，并且 (c) 自 2023 年以来已发表的系统。我们将 20 多个系统定位在谱系上（图 1 (https://arxiv.org/html/2604.15877#S0.F1)，表 2 (https://arxiv.org/html/2604.15877#S2.T2)），揭示每个系统都在一个固定的、预设的压缩级别上运行。¹¹ 我们的选择并非穷举；额外的 L1 系统如 LightMem (Fang et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib7)) 进一步证实了这种聚集模式。 #### 级别 1（情景记忆）。十个系统聚集在这里（表 2 (https://arxiv.org/html/2604.15877#S2.T2)），涵盖多种机制——LLM 驱动的提取 (Chhikara et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib6))，Agent 索引 (Xu et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib34))，分层存储 (Kang et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib13))，RL 优化的记忆操作 (Zhang et al., 2026b (https://arxiv.org/html/2604.15877#bib.bib41); Yan et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib35); Wang et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib29); Li et al., 2026a (https://arxiv.org/html/2604.15877#bib.bib16))，元学习的记忆架构 (Xiong et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib32))，多 Agent 协调 (Lin et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib19))，以及带时间衰减的治理 (Lam et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib15))——但都收敛于相同的输出：结构化情景记录。 #### 级别 2（程序性技能）。八个系统聚集在这里。Voyager (Wang et al., 2023 (https://arxiv.org/html/2604.15877#bib.bib27)) 开创了该范式；CASCADE (Huang et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib11)) 将累积技能创建与自主进化串联起来。一个新兴的共识加强了我们的框架：*将轨迹提炼成抽象技能一致优于将其存储在检索记忆库中*（表 1 (https://arxiv.org/html/2604.15877#S2.T1)）。SkillRL (Xia et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib31)) 报告在 ALFWorld 上比 L1 轨迹检索高出 +68.5 pp；Trace2Skill (Ni et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib22)) 在 SpreadsheetBench 上比人工编写的技能高出 +21.5 pp。SkillsBench (Li et al., 2026b (https://arxiv.org/html/2604.15877#bib.bib17)) 进一步发现，精心策划的技能有帮助（+16.2 pp），而 LLM 自生成的技能没有提供收益（+0.0 pp）——仅靠压缩级别是不够的；压缩过程的*保真度*决定了工件是有用还是仅仅是紧凑的噪声。 #### 跨级别（L1↔L2）。ExpeL (Zhao et al., 2024 (https://arxiv.org/html/2604.15877#bib.bib43)) 和 AutoAgent (Wang et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib28)) 同时在两个级别上运行，但两者都使用*预设*级别，没有自适应选择——是双速系统，而非连续谱系。 #### 级别 3（陈述性规则）。明显稀疏。没有调查的系统能从 Agent 经验中自动化规则提取。宪法性 AI (Bai et al., 2022 (https://arxiv.org/html/2604.15877#bib.bib3)) 使用*预指定*规则；奖励设计方法（PBRS (Ng et al., 1999 (https://arxiv.org/html/2604.15877#bib.bib21))，过程奖励 (Lightman et al., 2023 (https://arxiv.org/html/2604.15877#bib.bib18))，基于规则的奖励 (Shao et al., 2024 (https://arxiv.org/html/2604.15877#bib.bib26))）编码了 L3 类型的知识，但都是人工设计的，并非学习得来。权重级别的规则（通过 RLHF）在训练后是静态的，不透明且无法在不重新训练的情况下更新。框架级别的规则将是可检查、可编辑且无需梯度更新即可部署的。自动化 L3 提取的障碍是技术性的：(i) 区分因果规律与偶然相关性比提取情节更难；(ii) 没有 L2 基础的规则可能过于抽象；(iii) 没有用于评估规则质量的方法论（元评估的无限回归）；以及 (iv) LLM-as-Judge 给出了虚假的正

经验压缩谱：统一LLM Agent的记忆、技能与规则

相似文章

从存储到经验：大语言模型智能体记忆机制演进综述

MemRefine：基于LLM的长程智能体记忆压缩框架

探索智能体记忆系统的跨场景通用性：诊断与强基线

决策感知记忆卡：面向工具使用LLM代理的反事实启发式上下文选择与压缩

LLM智能体系统中技能的规模化定律

提交意见反馈