经验压缩谱:统一LLM Agent的记忆、技能与规则

arXiv cs.CL 论文

摘要

本文提出经验压缩谱,这是一个统一框架,将agent记忆、技能发现和基于规则的系统沿单一递增压缩轴集成(情景记忆5-20倍,程序性技能50-500倍,声明性规则1000倍以上)。工作识别出一个关键缺口——‘缺失对角线’——表明现有系统在固定压缩级别运行,缺乏自适应跨级别支持,并阐述了可扩展全谱agent学习系统的设计原则。

arXiv:2604.15877v1 Announce Type: cross 摘要:随着LLM agent扩展到长时域、多会话部署,高效管理积累的经验成为关键瓶颈。Agent记忆系统与agent技能发现都致力于解决这一挑战——从交互痕迹中提取可复用知识——然而,对22篇主要论文中1136篇参考文献的引用分析显示,跨社区的引用率低于1%。我们提出\emph{经验压缩谱},这是一个统一框架,将记忆、技能和规则定位在单一递增压缩轴上(情景记忆5--20$\times$,程序性技能50--500$\times$,声明性规则1000$\times$+),直接降低上下文消耗、检索延迟和计算开销。将20多个系统映射到该谱系后,发现每个系统都在固定、预定的压缩级别运行——没有一个支持自适应跨级别压缩,我们将这一缺口称为\emph{缺失对角线}。我们进一步表明,仅靠专业化是不够的——两个社区独立解决共享的子问题而不交换解决方案——评估方法与压缩级别紧密耦合,可迁移性随着压缩增加而提高但以特异性为代价,且知识生命周期管理在很大程度上被忽视。我们阐述了可扩展全谱agent学习系统的开放问题和设计原则。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:30

# 统一 LLM Agent 中的记忆、技能与规则 来源:https://arxiv.org/html/2604.15877 ## 经验压缩谱:统一 LLM Agent 中的记忆、技能与规则 ###### 摘要 随着 LLM Agent 从单次会话演示扩展到长期、多会话部署,高效管理积累的经验成为了关键瓶颈。Agent 记忆系统和 Agent 技能发现都致力于解决这一挑战——从交互轨迹中提取可复用的知识——然而,对涵盖 22 篇主要论文的 1,136 条引用进行的引用分析显示,跨社区的引用率低于 1%。我们提出了 *经验压缩谱*,这是一个统一框架,将记忆、技能和规则定位在单一压缩率递增的轴上(情景记忆为 5–20 倍,程序性技能为 50–500 倍,陈述性规则为 1,000 倍以上),直接减少了上下文消耗、检索延迟和计算开销。将 20 多个系统映射到该谱系后发现,每个系统都在一个固定的、预设的压缩级别上运行——没有一个支持自适应的跨级别压缩,我们将这一差距称为 *缺失对角线*。我们还进一步表明,仅靠专门化是不够的——这两个社区独立解决共享的子问题,却不交换解决方案;评估方法与压缩级别紧密耦合;可迁移性随着压缩率的提高而增加,但牺牲了特异性;而知识生命周期管理在很大程度上被忽视。我们阐述了可扩展的全谱系 Agent 学习系统的开放问题和设计原则。 LLM Agent,经验压缩,Agent 记忆,技能发现,高效 Agent 系统,可扩展学习 级别 0 原始轨迹 1:1 级别 1 情景记忆 5–20 倍 级别 2 程序性技能 50–500 倍 级别 3 陈述性规则 1000 倍以上 提取 抽象 泛化 对话日志 执行轨迹 MemSkill, Mem0 A-MEM, MemoryOS ALMA, MemMAMemory-R1, Mem-α MemPO, SSG Voyager, SkillWeaver EvoSkill, Trace2Skill AutoSkill, SkillRL CASCADE, EvolveR *(基本为空)* 宪法性 AI(仅预指定) 缺失对角线 ExpeL, AutoAgent(跨级别,但固定) 泛化性 ⟶ ⟵ 特异性 图 1:经验压缩谱。现有的 Agent 学习系统映射到从原始轨迹到抽象规则的单一轴上。记忆系统聚集在级别 1,技能系统在级别 2,级别 3 基本为空。少量跨级别系统(虚线)连接了级别 1–2,但没有一个支持自适应级别选择。压缩率是近似值。 ## 1 引言 随着 LLM Agent 从单次会话演示转向持久、长期部署,它们积累了大量的交互经验。一个每天处理数千项任务的 Agent 生成的轨迹会迅速超过任何实际上下文窗口或检索预算,这使得高效的经验管理成为首要的可扩展性挑战。两个研究社区已着手解决这一问题:*Agent 记忆*社区开发了从交互经验中提取和检索经验知识的系统 (Hu et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib10); Kang et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib13); Packer et al., 2023 (https://arxiv.org/html/2604.15877#bib.bib25)),而 *Agent 技能*社区则构建了从执行轨迹中发现和重用程序性能力的框架 (Wang et al., 2023 (https://arxiv.org/html/2604.15877#bib.bib27); Zheng et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib44); Alzubi et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib1))。尽管解决的是同一基本问题——从交互经验中提取可复用知识——但这些社区之间却惊人地脱节。对 22 篇主要论文的 1,136 条引用进行的引用分析显示,跨社区引用率低于 1%。记忆论文引用技能方面的工作占 0.7%(4/566);技能论文引用记忆方面的工作占 1.2%(7/570)。技能综述 (Jiang et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib12); Xu & Yan, 2026 (https://arxiv.org/html/2604.15877#bib.bib33)) 均未引用任何记忆系统,而只有一篇记忆综述 (Yang et al., 2026a (https://arxiv.org/html/2604.15877#bib.bib36)) 引用了技能方面的工作(仅 Voyager)。这种分离反映了一个概念上的差距,限制了可扩展 Agent 系统的设计。 范围。我们研究的是在*框架层*提取的知识——即模型权重之外的运行时系统。训练时的方法(RLHF (Ouyang et al., 2022 (https://arxiv.org/html/2604.15877#bib.bib24)),宪法性 AI)是补充性的,但不在本文讨论范围内。我们的关键观察是,记忆提取和技能发现是同一操作的不同实例:以不同粒度将*交互经验压缩成可复用的知识*。*记忆*系统提取结构化的事件记录(约 10 倍压缩);*技能*系统提取可复用的行为模式(约 100 倍);*规则*系统提取抽象的决策原则(约 1,000 倍以上)。这不是三个独立的问题——它们是单一 *经验压缩谱*上的三个点,其中更高的压缩直接转化为更低的上下文消耗、更快的检索和更低的每次决策计算开销。 这一观察有认知科学方面的类似物。互补学习系统 (CLS) 理论 (McClelland et al., 1995 (https://arxiv.org/html/2604.15877#bib.bib20)) 描述了海马体如何快速编码情景记忆,这些记忆逐渐巩固到新皮层知识中——一个生物学的压缩谱,暗示 Agent 系统应在空闲时间执行向上压缩。ACT-R 的陈述性–程序性区分 (Anderson, 1983 (https://arxiv.org/html/2604.15877#bib.bib2)) 对应于我们的 L1/L2 边界,而 Fitts & Posner (1967 (https://arxiv.org/html/2604.15877#bib.bib8)) 的技能习得理论表明知识是*双向*流动的——显式规则通过练习编译成自动程序——这是当前没有任何系统支持的属性。实践者已经手动执行全谱系压缩:数十万开发者维护着 `CLAUDE.md` 和 `.cursorrules` 文件,这些文件将部署经验提炼为可复用的规则(L0→L3)。然而,没有系统能自动化这一过程;每个系统都在一个单一的、预设的压缩级别上运行。 贡献。我们 (1) 形式化了经验压缩谱,将 Agent 记忆、技能和规则统一在单一压缩轴上(第 2 节 (https://arxiv.org/html/2604.15877#S2));(2) 将 20 多个系统映射到该谱系,揭示没有一个支持自适应跨级别压缩——即“缺失对角线”(第 2 节 (https://arxiv.org/html/2604.15877#S2));(3) 量化了社区脱节(<<1% 跨引用),并揭示了从任一社区内部无法观察到的四个结构性洞察(第 3 节 (https://arxiv.org/html/2604.15877#S3));以及 (4) 阐述了可扩展、全谱系 Agent 学习的开放问题和设计原则(第 4 节 (https://arxiv.org/html/2604.15877#S4))。 ## 2 经验压缩谱 我们形式化了一个四级谱系,描述交互经验如何被逐步压缩成越来越抽象和可复用的知识。 ### 2.1 形式化框架 ###### 定义 2.1(交互轨迹)。交互轨迹 T = { (s_t, a_t, o_t, f_t) }_{t=1}^N 是在 Agent 执行期间收集的状态 s_t、动作 a_t、观察 o_t 和反馈信号 f_t 的序列。 ###### 定义 2.2(经验压缩函数)。经验压缩函数 C_L: T → K_L 将轨迹映射到压缩级别 L ∈ {0,1,2,3} 的知识工件。四个级别为: #### 级别 0 — 原始轨迹。未压缩的交互记录。格式:完整日志、执行轨迹。压缩率:1:1。可复用性:极低——完全受限于上下文。 #### 级别 1 — 情景记忆。对*发生了什么*的结构化提取,保留关键上下文细节同时丢弃冗余的交互机制。格式:键值对、带时间戳的事件摘要(例如,“[2026-03-15] 用户请求使用 SQL 进行 Q3 收入分析。偏好表格格式。”)。压缩率:约 5–20 倍。可复用性:低到中等——与特定情节绑定。 #### 级别 2 — 程序性技能。提取在某一类情境中*如何行动*,跨实例抽象成可复用的行为模式。格式:结构化例程、代码片段、工作流模板(例如,“数据分析:(1) 确认来源,(2) 选择工具,(3) 以偏好格式呈现,(4) 验证。”)。压缩率:约 50–500 倍。可复用性:高——可跨类似情境迁移。 #### 级别 3 — 陈述性规则。提取*支配决策的原则*——领域不变的知识。格式:自然语言原则、约束、策略(例如,“在呈现之前,务必根据源数据验证计算结果。”)。压缩率:约 1000 倍以上。可复用性:最高——领域通用,但可能缺乏可操作的特异性。 ### 2.2 谱系的属性 四个级别在三个维度上表现出系统性的权衡,每个维度都有直接的效率影响。 泛化性与特异性。随着压缩率的增加(L0→L3),知识变得更广泛适用,但上下文特异性降低。 压缩率与信息保留。更高的级别通过*语义抽象*丢弃更多上下文细节:识别哪些模式可泛化,哪些是偶然的。具体例子:Mem0 (Chhikara et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib6)) 将多会话对话历史(约 26,000 tokens)压缩为检索到的记忆条目(约 1,800 tokens)——在 L1 上大约 15 倍。Trace2Skill (Ni et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib22)) 通过 128 个并法子代理将来自 200 个任务的轨迹提炼成一个紧凑的技能目录——在 L2 上大约 100–500 倍。 获取成本与维护成本。L1 记忆获取成本低(单条轨迹)但大规模维护成本高——一个仅使用 L1 的系统每天积累数千条条目,将在数周内耗尽任何实际检索预算。L3 规则需要大量轨迹才能归纳,但形成一个紧凑、低维护的集合。这种权衡使得向上压缩对于在长时间部署中以规模运行的 Agent 来说不仅是可取的,而且是*必需的*。量化一下:一个仅使用 L1 的 Agent 存储 1,000 个情节,每个约 500 tokens,维护一个约 500K 令牌的知识库,每次决策都需要索引和搜索。压缩为 L2 技能可将此减少到约 5K tokens;压缩为 L3 规则,约 500 tokens——存储和检索开销减少 100–1,000 倍,这在每天数千次决策中会累积起来。 关键的是,这些不是顺序的流水线阶段。系统可以直接从 L0→L3 进行压缩,或者同时维护多个级别的知识。谱系描述的是*输出空间*,而非固定的处理顺序。 ### 2.3 映射现有系统 我们选择那些 (a) 从交互轨迹中学习(排除预指定规则),(b) 产生持久知识工件,并且 (c) 自 2023 年以来已发表的系统。我们将 20 多个系统定位在谱系上(图 1 (https://arxiv.org/html/2604.15877#S0.F1),表 2 (https://arxiv.org/html/2604.15877#S2.T2)),揭示每个系统都在一个固定的、预设的压缩级别上运行。¹¹ 我们的选择并非穷举;额外的 L1 系统如 LightMem (Fang et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib7)) 进一步证实了这种聚集模式。 #### 级别 1(情景记忆)。十个系统聚集在这里(表 2 (https://arxiv.org/html/2604.15877#S2.T2)),涵盖多种机制——LLM 驱动的提取 (Chhikara et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib6)),Agent 索引 (Xu et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib34)),分层存储 (Kang et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib13)),RL 优化的记忆操作 (Zhang et al., 2026b (https://arxiv.org/html/2604.15877#bib.bib41); Yan et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib35); Wang et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib29); Li et al., 2026a (https://arxiv.org/html/2604.15877#bib.bib16)),元学习的记忆架构 (Xiong et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib32)),多 Agent 协调 (Lin et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib19)),以及带时间衰减的治理 (Lam et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib15))——但都收敛于相同的输出:结构化情景记录。 #### 级别 2(程序性技能)。八个系统聚集在这里。Voyager (Wang et al., 2023 (https://arxiv.org/html/2604.15877#bib.bib27)) 开创了该范式;CASCADE (Huang et al., 2025 (https://arxiv.org/html/2604.15877#bib.bib11)) 将累积技能创建与自主进化串联起来。一个新兴的共识加强了我们的框架:*将轨迹提炼成抽象技能一致优于将其存储在检索记忆库中*(表 1 (https://arxiv.org/html/2604.15877#S2.T1))。SkillRL (Xia et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib31)) 报告在 ALFWorld 上比 L1 轨迹检索高出 +68.5 pp;Trace2Skill (Ni et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib22)) 在 SpreadsheetBench 上比人工编写的技能高出 +21.5 pp。SkillsBench (Li et al., 2026b (https://arxiv.org/html/2604.15877#bib.bib17)) 进一步发现,精心策划的技能有帮助(+16.2 pp),而 LLM 自生成的技能没有提供收益(+0.0 pp)——仅靠压缩级别是不够的;压缩过程的*保真度*决定了工件是有用还是仅仅是紧凑的噪声。 #### 跨级别(L1↔L2)。ExpeL (Zhao et al., 2024 (https://arxiv.org/html/2604.15877#bib.bib43)) 和 AutoAgent (Wang et al., 2026 (https://arxiv.org/html/2604.15877#bib.bib28)) 同时在两个级别上运行,但两者都使用*预设*级别,没有自适应选择——是双速系统,而非连续谱系。 #### 级别 3(陈述性规则)。明显稀疏。没有调查的系统能从 Agent 经验中自动化规则提取。宪法性 AI (Bai et al., 2022 (https://arxiv.org/html/2604.15877#bib.bib3)) 使用*预指定*规则;奖励设计方法(PBRS (Ng et al., 1999 (https://arxiv.org/html/2604.15877#bib.bib21)),过程奖励 (Lightman et al., 2023 (https://arxiv.org/html/2604.15877#bib.bib18)),基于规则的奖励 (Shao et al., 2024 (https://arxiv.org/html/2604.15877#bib.bib26)))编码了 L3 类型的知识,但都是人工设计的,并非学习得来。权重级别的规则(通过 RLHF)在训练后是静态的,不透明且无法在不重新训练的情况下更新。框架级别的规则将是可检查、可编辑且无需梯度更新即可部署的。自动化 L3 提取的障碍是技术性的:(i) 区分因果规律与偶然相关性比提取情节更难;(ii) 没有 L2 基础的规则可能过于抽象;(iii) 没有用于评估规则质量的方法论(元评估的无限回归);以及 (iv) LLM-as-Judge 给出了虚假的正

相似文章

从存储到经验:大语言模型智能体记忆机制演进综述

Hugging Face Daily Papers

本综述论文提出了一种大语言模型(LLM)智能体记忆机制的演进框架,将其发展划分为三个阶段:存储、反思和经验。文章分析了长程一致性和持续学习等核心驱动力,旨在为下一代智能体的设计提供指导原则。

MemRefine:基于LLM的长程智能体记忆压缩框架

arXiv cs.CL

MemRefine是一个基于LLM的框架,用于在固定存储预算下压缩长程智能体记忆,利用相似性进行候选配对,并由LLM裁判基于事实内容决定删除或合并,在基准测试中优于基于规则的基线。

LLM智能体系统中技能的规模化定律

arXiv cs.CL

本文识别了LLM智能体系统中技能库的两个耦合规模化定律:路由准确率随库大小呈对数衰减,执行动态表现出救援效应。这些定律在15个模型和超过百万次决策中得到验证,且定律指导的优化显著提升了性能。