MemGym:面向LLM智能体的长时记忆环境

arXiv cs.CL 论文

摘要

MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。

arXiv:2605.20833v1 Announce Type: new 摘要:记忆是LLM智能体在长时任务中运行的核心能力。现有的记忆基准主要评估多轮聊天场景中个性化信息的保留,忽视了在扩展智能体执行过程中形成的动态记忆。因此,它们产生的记忆系统难以迁移到真实的智能体环境中,例如编码和网页导航。我们提出MemGym,一个用于智能体记忆的基准测试,它统一了现有的智能体gym和内部记忆基础流水线,并基于一个统一的记忆推理接口。MemGym涵盖五个评估轨道,分为四个智能体领域:工具使用对话(tau2-bench)、多轮深度研究搜索(MEMGYM-DR)、编码(SWE-Gym和MEMGYM-CODEQA)以及计算机使用(WebArena-Infinity)。MemGym报告记忆隔离得分,将记忆性能与推理、检索和工具使用能力解耦,从而可以在没有这些混淆因素的情况下对记忆策略进行排名。我们为MEMGYM-CODEQA和MEMGYM-DR设计的合成流水线长度可控,每个阶段都经过消融验证,并与下游场景紧密对齐。为了使编码环境上的评估在学术上可处理,我们训练了MemRM,一个轻量级奖励模型(使用QLoRA微调的Qwen3-1.7B),它将压缩质量评分作为快速标量读取,以替代完整的Docker rollout。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:35

# 面向LLM智能体的长周期记忆环境

来源:https://arxiv.org/html/2605.20833

吴江旭¹,王宇²,梅凯¹,梁凯鹭³,王振霆¹,金明宇¹,张涵¹,张世雄²,华文悦⁴,Sambit Sahu²,Dimitris N. Metaxas¹

¹罗格斯大学,²Capital One,³普林斯顿大学,⁴微软研究院

###### 摘要

记忆是LLM智能体在长周期任务中运行的核心能力。现有的记忆基准主要评估多轮对话场景中个性化信息的保留能力,忽视了智能体在长时间执行过程中发生的动态记忆形成。因此,它们产生的记忆系统难以迁移到编码和网页导航等真实的智能体环境中。我们提出了MemGym,一个面向智能体记忆的基准,它将现有的智能体环境和内部构建的记忆驱动流水线统一到一个记忆-推理接口之下。MemGym涵盖五个评估轨道,分为四个智能体场景:工具使用对话(τ²-bench)、多轮深度研究搜索(MemGym-DR)、编码(SWE-Gym和MemGym-CodeQA)以及计算机使用(WebArena-Infinity)。MemGym报告记忆隔离分数,将记忆性能与推理、检索和工具使用能力解耦,从而可以在不受这些混淆因素影响的情况下对记忆策略进行排序。我们为MemGym-CodeQA和MemGym-DR构建的合成流水线具有可控制的长度、经过每个阶段的消融验证,并与下游场景紧密对齐。为了让编码环境的评估在学术上可行,我们训练了MemRM,一个轻量级奖励模型(基于QLoRA微调的Qwen3-1.7B),它能够以快速的标量读取方式对压缩质量进行评分,替代完整的Docker运行。🌐项目页面(https://wujiangxu.github.io/memgym-site/#)![[未添加标题的图片]](https://arxiv.org/html/2605.20833v1/x1.png)代码(https://github.com/WujiangXu/MemGym)![[未添加标题的图片]](https://arxiv.org/html/2605.20833v1/x2.png)数据集(https://huggingface.co/MemGym)参见图注

图1:MemGym将四个智能体场景(工具使用对话、多轮搜索、编码、计算机使用)中的五个评估轨道统一到一个共享接口下,该接口将记忆与推理分离,并通过显式的记忆奖励支持记忆隔离评分。

## 1 引言

运行在长周期环境中的LLM智能体必须持续决定随着观察结果、工具输出和中间结论的累积,哪些信息需要保留、总结或驱逐。我们将这个过程称为*智能体执行过程中的记忆形成*,以区别于长上下文基准测试的静态回忆[4, 17]。这一能力在各种现实场景中都会出现:编码智能体在仓库级任务中需要回顾之前的调试证据[20, 32],检索智能体需要在搜索轮次之间保留桥梁事实[42, 16, 52],对话智能体则需要在扩展交互中保留用户约束和工具状态[53, 5]。现有的记忆基准[29, 48, 18, 1]主要评估多轮对话中个性化信息的保留能力,对智能体在感知、推理和工具使用交织过程中的记忆行为揭示甚少。

三个障碍加剧了这一差距。
(i) 耦合的指标:涉及长周期执行的智能体环境(SWE-Gym、τ²-bench、WebArena)仅报告最终任务成功率,将记忆失败与推理、检索和工具使用错误混为一谈。
(ii) 虚假的记忆压力:看似记忆密集的场景往往可以在没有显式记忆管理的情况下取得良好性能,因为事实可以从仓库中重新推导,或者从预训练中恢复。
(iii) 评估成本:单次SWE-Gym运行需要Docker基础设施和数十个执行步骤,使得系统的记忆设计迭代超出了大多数学术预算。

我们提出了MemGym,一个基准、训练数据流水线和轻量级评估器,共同针对这三个障碍(图1)。MemGym将五个评估轨道统一到一个共享接口下,该接口显式地将记忆模块与推理模型分离:三个是现有基准的包装器(τ²-bench、SWE-Gym、WebArena-Infinity),另外两个是我们内部构建的记忆驱动轨道(MemGym-DR深度研究、来自SWE-smith的MemGym-CodeQA)。因此,每个压缩事件都是可观察、可比较、可记录的。在此接口之上,MemGym报告*记忆隔离*分数,将记忆性能与底层任务解耦,从而可以在不受推理、检索或工具使用能力干扰的情况下对记忆策略进行排序。两个互补组件将测量与训练闭环连接起来。首先,用于MemGym-CodeQA和MemGym-DR的可控合成流水线可以生成长度可调的实例,并使用验证器消融测试预期记忆是否满足无记忆、仅干扰项和易泄露条件;它们紧密对齐其所针对的下游编码和搜索场景,而非一次性劳动练习。其次,MemRM,一个在收集的轨迹上训练的轻量级奖励模型(基于QLoRA微调的Qwen3-1.7B),以快速标量读取的方式对压缩质量进行评分,替代完整的Docker运行,使得编码环境评估在学术上变得可行。同样配对的轨迹作为标注语料库发布,用于下游训练研究。

因此,MemGym做出了三项贡献:
- •五个轨道在同一记忆接口下,采用记忆隔离评分。MemGym将τ²-bench、SWE-Gym、WebArena-Infinity以及内部构建的MemGym-DR和MemGym-CodeQA流水线统一在一个共享的记忆合约下,并在固定推理器下报告配对基线vs记忆增量,使评分解读为记忆效应,而非推理、检索或工具使用的混淆因素(§3.2, §3.3)。
- •可控、经过消融验证的合成流水线。MemGym-CodeQA和MemGym-DR可以大规模生成长度可调的实例,并通过逐阶段消融验证测试的是预期记忆通道(而非参数泄露或干扰项回忆)(§3.4)。
- •MemRM:替代Docker运行的标量门控。一个使用压缩事件结果训练的1.7B参数QLoRA奖励模型,在SWE-Gym IID划分上达到AUROC 0.985,将每次事件替代为亚秒级分类器调用,并为下游后训练提供分级奖励(§3.3)。

这些组件共同将长周期评估循环从单向测量转变为闭环反馈:当前记忆系统失败的轨迹,同时也是修复它们的监督信号。论文的其余部分将阐述框架(§3)、基准构建(§3.4)、实验(§4)以及未来方向和局限性(附录J)。

表1:记忆与长周期智能体基准的对比。最小成本是对一个记忆配置进行评分的最廉价路径:低、中、高。

| 基准 | 智能体场景 | #场景 | 交互式 | 记忆隔离 | 最小成本 | 训练数据 | 长度 |
|------|------------|-------|--------|----------|----------|----------|------|
| **对话中心记忆基准** | | | | | | | |
| LoCoMo[29] | 长周期对话 | 1 | ✗ | ✗ | 低 | ✗ | 9K |
| LongMemEval[48] | 长周期对话 | 1 | ✗ | ✗ | 中 | ✗ | 115K |
| MemoryAgentBench[18] | 多轮对话 | 1 | ✗ | ✗ | 中 | ✗ | 100K–300K |
| MemoryBench[1] | 持续对话 | 1 | ✗ | ✗ | 中 | ✗ | 30K–380K |
| **长周期智能体基准** | | | | | | | |
| SWE-Gym[32] | 仓库编码 | 1 | ✓ | ✗ | 高 | ✓ | 任务相关 |
| τ²-bench[5] | 工具-智能体-用户对话 | 1 | ✓ | ✗ | 中 | ✗ | 任务相关 |
| WebArena-Infinity[60] | 网页计算机使用 | 1 | ✓ | ✗ | 中 | ✗ | 可配置 |
| **智能体中心记忆基准** | | | | | | | |
| AMA-Bench[57] | 智能体应用(事后QA) | 1 | ✗ | ✗ | 中 | ✗ | 57K |
| AMemGym[6] | 个性化对话 | 1 | ✓ | ✗ | 中 | ✗ | 可配置 |
| **MemGym(本工作)** | 编码、网页、工具对话、深度研究搜索、编码QA | 5 | ✓ | ✓ | 低 | ✓ | 可配置 |

## 2 相关工作

**智能体记忆系统。** 早期的记忆增强型LLM系统(MemoryBank[58]、MemGPT[31]和ReadAgent[24])增加了显式记忆组件,但在长周期对话或文档理解上评估,而非环境交互过程中的记忆形成。A-Mem[50]引入了智能体笔记演化,并在LoCoMo[29](一个长周期对话记忆基准)上进行评估,该基准主要测试关于人物和时间事件图的针大海捞针式回忆,而非调试代码、使用工具或浏览网页时形成的记忆。LongMemEval[48]、MemoryAgentBench[18]和MemoryBench[1]通过可扩展的历史记录、增量多轮摄入和持续学习反馈扩展了这一方向,但记忆目标仍然是转录或反馈流,而非在工具使用压力下的实时轨迹。最近,AMA-Bench[57]和AMemGym[6]更接近我们的设定(前者通过事后QA评估智能体轨迹上的记忆,后者提供具有结构化潜在状态演化的在线策略对话),但两者都没有提供跨编码、搜索、工具对话和网页控制的统一记忆接口以及记忆隔离奖励。

**长周期智能体基准。** 长周期智能体基准评估智能体是否能在可执行环境中完成扩展任务。SWE-bench[20]测试真实的GitHub问题解决,SWE-Gym[32]增加了可执行的训练任务,包含单元测试和发布的轨迹;完整的评估昂贵且稀疏,因此仅靠最终任务解决率无法用于系统的记忆迭代。τ-bench和τ²-bench[53, 5]评估工具-智能体-用户工作流,但报告最终任务成功率,未隔离失败是由于记忆、策略还是工具使用。WebArena[59]提供了功能性的网页环境,WebArena-Infinity[60]通过自动生成包含可验证任务的独立应用来扩展此方向;OSWorld和OSGym[49, 36]将同一思路扩展到桌面和操作系统任务。在这些基准中,记忆是承载性的但未被单独测量。MemGym为这些环境包装了显式的记忆边界,记录压缩事件,并报告记忆隔离分数,使得记忆系统可以独立于底层智能体的推理、检索和工具使用能力进行比较。

## 3 MemGym:以记忆为中心的评估与训练框架

### 3.1 概述

MemGym在五个环境中评估智能体记忆,这些环境通过一个共享的记忆模块统一,该模块包装发送给策略LLM的提示:τ²-bench对话[5]、SWE-Gym编码[20, 32]、WebArena-Infinity计算机使用[59, 60]、MemGym-DR深度研究和MemGym-CodeQA。前三个是现有基准的包装器;后两个是我们额外内部构建记忆驱动实例的环境,增长或提取智能体必须保留的事实,而非依赖记忆状态是偶发性的基准。所有五个环境都接入§3.2中描述的相同逐步骤合约;两个构建流水线本身也是贡献,详见§3.4。本文中每个有记忆vs.无记忆的比较都保持推理模型在配对运行的两侧固定,因此分数增量(即*记忆增益*)隔离了记忆而非将其与模型选择混淆。通过统一包装器收集的轨迹馈送到回放增强流水线,生成safe/harmful压缩标签,用于训练MemRM,一个轻量级分类器(基于QLoRA微调的Qwen3-1.7B),在亚秒时间内预测Pr[行为不变|压缩],替代逐回合Docker评估作为策略迭代的内循环信号,并作为§4中后训练实验的奖励信号。图2展示了各组件如何配合。

参见图注

图2:MemGym架构。五个环境共享一个记忆模块,该模块包装发送给策略LLM的提示,因此相同的策略可以在任何环境中不变地运行。轨迹馈送至回放增强流水线,生成safe/harmful标签给MemRM;MemGym-DR和MemGym-CodeQA来自内部流水线(§3.4)。

### 3.2 统一记忆基础设施

七个记忆家族以及一个无记忆的*None*控制,在五个环境上的17个(轨道,策略)单元中进行评估(单元列表在§C.2中列举);所有单元共享一个逐步骤合约,工程深度(容器后端、扰动分类法和适配器补丁)在附录G中说明。所有五个环境都接入一个通用合约(BaseMemoryEnvironment, BaseAgent, BaseMemoryManager, BaseRunner)和一个单一的逐步骤循环:env.reset() → memory_manager.manage_context → agent.act → env.step。记忆管理器包装发送给策略LLM的提示,并返回一个FilteredContext以及每个事件的condensation_event(摘要、被遗忘消息索引、压缩元数据);与逐步骤轨迹记录(附录F)一起,可以在不重新运行的情况下重建任何回合的训练信号。每个环境的包装器捕获环境

相似文章