SEAGym: 自进化LLM代理的评估环境

arXiv cs.AI 2026/06/17 04:00 论文

摘要

SEAGym是一个新的评估环境，用于自进化LLM代理，它衡量代理框架在训练、验证、测试、重放和成本记录上的更新，提供关于进化过程的互补信号。

arXiv:2606.17546v1 公告类型: 新摘要: 基于自进化LLM的代理主要通过改变其代理框架来改进：围绕基础模型的结构化执行层，包括提示、记忆、工具、中间件、运行时状态以及模型-工具交互循环。现有评估通常将这一过程简化为孤立的任务分数或单一条顺序曲线，掩盖了更新是否产生可复用的改进、是否过拟合近期任务、是否增加成本或损害旧行为。我们介绍SEAGym，一个评估环境，用于衡量代理框架在训练、验证、测试、重放和成本记录上的更新。SEAGym将兼容Harbor的基准测试转化为动态的自进化任务源，包含训练批次、冻结更新验证、留出的ID和OOD迁移视图、重放诊断以及保存的快照和指标记录。在Terminal-Bench 2.0和HLE上实例化SEAGym，我们在共享的周期/批次协议下比较了ACE、TF-GRPO和AHE。结果表明，这些评估视图提供了关于进化过程的互补信号：频繁更新可能无法改善留出性能、有用的中间快照可能后来崩溃，而源多样性和模型后端可能影响框架可靠性。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:37

# SEAGym：自演化LLM智能体的评估环境

来源：https://arxiv.org/html/2606.17546

Congjie Zheng¹,\*，Chuanyi Xue¹,\*，Bin Liang¹，Jun Yang¹,†，Changshui Zhang¹,²,†  
¹清华大学自动化系，北京，100084  
²北京信息科学与技术国家研究中心（BNRist），清华大学，北京，100084  
\{zhengcj24, xcy22\}@mails.tsinghua.edu.cn  
\{bliang, yangjun603\}@tsinghua.edu.cn, [email protected]  

###### 摘要

基于LLM的自演化智能体主要通过修改其智能体执行框架（agent harness）来改进：即围绕基础模型的结构化执行层，包括提示词、记忆、工具、中间件、运行时状态以及模型-工具交互循环。现有评估往往将这一过程简化为孤立的任务分数或单一的顺序曲线，从而掩盖了以下问题：一次更新是否带来可复用的改进、是否过拟合近期任务、是否增加成本或损害旧有行为。我们提出了SEAGym，一个用于测量智能体执行框架更新过程的评估环境，涵盖训练、验证、测试、重放和成本记录。SEAGym将Harbor兼容的基准测试转化为动态的自演化任务源，包含训练批次、冻结的更新验证、保留的领域内（ID）和领域外（OOD）迁移视图、重放诊断以及保存的快照和度量记录。通过在Terminal-Bench 2.0和HLE上实例化SEAGym，我们在统一的周期/批次协议下比较了ACE、TF-GRPO和AHE。结果表明，这些评估视图为演化过程提供了互补信号：频繁更新可能无法改善保留性能，有用的中间快照可能后来崩溃，源多样性和模型后端会影响执行框架的可靠性。

---

# SEAGym：自演化LLM智能体的评估环境

Congjie Zheng¹,\*，Chuanyi Xue¹,\*，Bin Liang¹，Jun Yang¹,†，Changshui Zhang¹,²,†  
¹清华大学自动化系，北京，100084  
²北京信息科学与技术国家研究中心（BNRist），清华大学，北京，100084  
\{zhengcj24, xcy22\}@mails.tsinghua.edu.cn  
\{bliang, yangjun603\}@tsinghua.edu.cn, [email protected]  

¹¹这些作者对本文贡献相等。  
²²通讯作者。

## 1 引言

基于LLM的智能体在部署时不再是固定的系统。它们可以存储经验、修改提示词、写入记忆、添加技能、改变工具使用例程或编辑运行时配置。这些组件构成了一个*智能体执行框架*：围绕基础模型的结构化执行层，包括提示词、上下文管理、记忆、工具、编排逻辑、中间件、运行时环境以及反馈或验证机制（Yang et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib28)；Wang et al., 2025a (https://arxiv.org/html/2606.17546#bib.bib27)；Li et al., 2026 (https://arxiv.org/html/2606.17546#bib.bib32)；Pan et al., 2026 (https://arxiv.org/html/2606.17546#bib.bib37)）。在本文中，一个*自演化智能体*是指利用任务经验更新这一持久执行框架状态，并在后续任务中复用该更新状态的基于LLM的智能体。自演化可以通过不同的过程发生。智能体可能在解决单个任务时自行更新，将在一个任务上学到的内容用于下一个任务，或者跨多轮反复训练一组任务。不同方法在更新内容上也有所不同。以文本为中心的方法修改提示词、反思、指令或经验库（Shinn et al., 2023 (https://arxiv.org/html/2606.17546#bib.bib3)；Madaan et al., 2023 (https://arxiv.org/html/2606.17546#bib.bib4)；Agrawal et al., 2026 (https://arxiv.org/html/2606.17546#bib.bib39)；Cai et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib40)）。基于记忆和技能的方法构建可复用的记忆、技能、工作流痕迹或知识库（Wang et al., 2023 (https://arxiv.org/html/2606.17546#bib.bib26), 2024 (https://arxiv.org/html/2606.17546#bib.bib56)；Xu et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib58)；Tang et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib59)）。框架层面的方法改变更广泛的执行结构，包括工具、中间件、子智能体、工作流或项目文件（Zhuge et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib54)；Zhang et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib55)；Yuan et al., 2025a (https://arxiv.org/html/2606.17546#bib.bib57)；Lin et al., 2026 (https://arxiv.org/html/2606.17546#bib.bib41)）。这些差异可以通过相同的交互循环来表达：智能体在任务片段中行动，观察轨迹和验证器反馈，更新持久的执行框架状态，然后再次行动。因此，评估自演化需要的不仅仅是报告最终智能体在任务集上是否得分更高。基准测试必须衡量更新过程本身：哪些证据驱动每次更新，何时快照改进或退化，改进是否在更新源之外持续存在，以及更新引入了何种成本或不稳定性。

现有评估仅部分支持这种分析。大多数智能体基准测试是为静态评估设计的：每个任务都是一个孤立的片段，智能体状态被重置，分数衡量的是一个固定的智能体（Jimenez et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib5)；Zhou et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib6)；Xie et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib7)；Mialon et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib8)；Patil et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib9)；Yao et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib10)）。这消除了自演化智能体本应利用的状态持久性。序列式和终身式评估通过研究智能体在任务流上的表现超越了孤立片段（Jiang et al., 2026 (https://arxiv.org/html/2606.17546#bib.bib20)；Zheng et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib21)）。然而，其他自演化设置（如单任务或周期级演化）仍未被充分研究。更细粒度的分析，包括遗忘和退化，也未完全覆盖。一个面向自演化智能体的基准测试应该使这些设置和评估信号明确，以便在共同环境下比较不同的自演化机制。

我们提出SEAGym，一个用于自演化LLM智能体的评估环境。SEAGym采用类似强化学习的环境公式，其中自演化智能体提供任务策略和执行框架更新规则，而环境定义任务采样、反馈、调度和快照评估。具体来说，SEAGym将静态基准测试转换为可复用的任务源，将其组织成训练批次和冻结的评估视图，记录智能体快照和度量工件，并通过展开/更新接口连接多种方法，而不规定智能体如何更新其执行框架。它通过明确的调度参数（包括状态重置、任务重用、批量大小和更新时机）表示不同的自演化过程，因此可以在同一环境下研究单任务适应、在线迁移和基于周期的批量学习。在实现上，SEAGym基于Harbor框架，该框架用于在容器化任务设置中运行智能体评估和强化学习环境（Harbor Framework Team, 2026 (https://arxiv.org/html/2606.17546#bib.bib1)）。这两个系统是互补的：Harbor提供任务执行、环境、验证器和并行作业，而SEAGym将静态基准测试任务转化为训练批次、验证视图、最终的领域内和领域外迁移视图以及自演化研究的重放诊断。实验通过Terminal-Bench 2.0（Merrill and others, 2026 (https://arxiv.org/html/2606.17546#bib.bib11)）和HLE（Phan and others, 2025 (https://arxiv.org/html/2606.17546#bib.bib12)）实例化了这一路径，并将任务展开与方法更新分离，使得多种自演化智能体可以通过薄包装器连接，同时保留其原生更新规则。

我们的贡献包括：

- 我们提出了SEAGym，一个统一的评估环境，将现有智能体基准测试转化为动态的自演化任务源，并支持在共同协议下评估自演化智能体。
- 我们将自演化形式化为一个基于智能体快照的类强化学习环境，具有可配置的调度机制，适用于单任务适应、在线迁移和基于周期的批量学习，并且具有保留的视图用于更新验证、领域内迁移、领域外迁移、重放和诊断。
- 通过在Terminal-Bench 2.0和HLE上的实验，我们展示了当前自演化机制产生不同的更新动态：验证增益不一定能迁移，有用的中间快照可能退化或恢复，而批量大小、源多样性和展开后端影响执行框架的可靠性。

## 2 相关工作

#### 智能体执行框架。

智能体执行框架通常被描述为基础模型周围的结构化执行层：它包含提示词和上下文管理、记忆、工具接口、编排逻辑、运行时隔离、反馈处理、追踪和恢复逻辑。早期的智能体工作研究了推理-行动循环和API/工具使用（Yao et al., 2023 (https://arxiv.org/html/2606.17546#bib.bib2)；Schick et al., 2023 (https://arxiv.org/html/2606.17546#bib.bib22)；Patil et al., 2023 (https://arxiv.org/html/2606.17546#bib.bib23)；Qin et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib24)）；较新的工作表明，工具文档、智能体-计算机接口和记忆管理本身就是性能关键的设计变量（Yuan et al., 2025b (https://arxiv.org/html/2606.17546#bib.bib25)；Yang et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib28)；Xiong et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib29)）。最近的平台和协议工作进一步将执行框架系统化为可组合的智能体运行时，以实现互操作性、可观测性、验证和运行时强制（Wang et al., 2025a (https://arxiv.org/html/2606.17546#bib.bib27)；Ehtesham et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib30)；Wang et al., 2026 (https://arxiv.org/html/2606.17546#bib.bib31)；Li et al., 2026 (https://arxiv.org/html/2606.17546#bib.bib32)）。同样的转变也出现在生产实践中，OpenAI、Anthropic和LangChain将执行框架工程描述为结构化环境、反馈循环、持久执行、中间件和智能体可读状态（OpenAI, 2026a (https://arxiv.org/html/2606.17546#bib.bib33)；Anthropic, 2026 (https://arxiv.org/html/2606.17546#bib.bib34)；LangChain, 2025 (https://arxiv.org/html/2606.17546#bib.bib35), 2026 (https://arxiv.org/html/2606.17546#bib.bib36)）。Pan等人（2026 (https://arxiv.org/html/2606.17546#bib.bib37)）通过用自然语言表达执行框架模块，使这一分离变得明确，支持对非模型智能体状态的检查和消融。这一视角使得执行框架成为自然适应目标：提示词、记忆、工具和中间件可以超越单个片段而持久存在，并影响后续任务的性能。

#### 持续学习与自演化。

持续学习研究面对任务或数据分布序列的系统，其中从新经验中学习可以改善未来行为，但也可能干扰先前获得的能力。其核心评估关注点——适应、迁移、保留、重放和遗忘——因此与自演化智能体相关（Parisi et al., 2019 (https://arxiv.org/html/2606.17546#bib.bib19)；Robins, 1995 (https://arxiv.org/html/2606.17546#bib.bib42)；Kirkpatrick et al., 2017 (https://arxiv.org/html/2606.17546#bib.bib43)；Lopez-Paz and Ranzato, 2017 (https://arxiv.org/html/2606.17546#bib.bib44)；Chaudhry et al., 2019 (https://arxiv.org/html/2606.17546#bib.bib45)；van de Ven and Tolias, 2019 (https://arxiv.org/html/2606.17546#bib.bib46)）。基于LLM的自演化智能体将这一设置从参数学习扩展到智能体系统学习。一个方向是通过监督微调、强化学习、自我博弈、过程级奖励或工具使用训练来改进底层模型或行为策略（Yuan et al., 2025c (https://arxiv.org/html/2606.17546#bib.bib48)；Kumar et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib49)；Setlur et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib50)；Choudhury, 2025 (https://arxiv.org/html/2606.17546#bib.bib51)；Wang et al., 2025b (https://arxiv.org/html/2606.17546#bib.bib52)；Feng et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib53)）。第二个方向将执行框架本身视为演化的对象：环境反馈可以修改提示词、记忆、工具接口、工作流、通信结构或中间件，而无需重新训练基础模型（Fang et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib47)；Zhuge et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib54)；Zhang et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib55)；Wang et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib56)；Yuan et al., 2025a (https://arxiv.org/html/2606.17546#bib.bib57)；Xu et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib58)；Tang et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib59)）。这种区别对于评估很重要，因为执行框架更新是持久的、方法特定的，并且可能在与产生更新证据相同的执行循环内应用。近期方法不仅在其改变的组件上有所不同，而且在是否依赖反思、验证器反馈、展开比较或搜索，以及更新是在任务内、任务间、批次后还是重复周期中应用上也有所不同（Zhang et al., 2026 (https://arxiv.org/html/2606.17546#bib.bib38)；Agrawal et al., 2026 (https://arxiv.org/html/2606.17546#bib.bib39)；Cai et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib40)；Lin et al., 2026 (https://arxiv.org/html/2606.17546#bib.bib41)）。因此，如果没有一个共享的协议来分离训练片段、验证证据、保留的迁移、重放和重置假设，报告的性能提升很难比较。

#### 智能体基准测试。

智能体基准测试提供了执行框架行为可被观察的环境。最近的综述涵盖了智能体能力和任务设置的评估，如规划、工具使用、记忆、软件修复、终端操作、科学推理、网页和桌面交互、函数调用以及工具-智能体-用户工作流（Yehudai et al., 2026 (https://arxiv.org/html/2606.17546#bib.bib60)；Jimenez et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib5)；Merrill and others, 2026 (https://arxiv.org/html/2606.17546#bib.bib11)；Phan and others, 2025 (https://arxiv.org/html/2606.17546#bib.bib12)；Zhou et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib6)；Xie et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib7)；Mialon et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib8)；Patil et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib9)；Yao et al., 2024 (https://arxiv.org/html/2606.17546#bib.bib10)）。这些基准测试标志着从纯文本评分向具有可执行动作、状态变化和任务特定验证器的交互式环境的转变。然而，它们的标准协议仍然是在独立片段上评估固定智能体；持久的执行框架状态要么被重置，要么不被支持。明确针对自演化或终身智能体学习的基准测试仍然稀缺。SEA-Eval评估智能体在构建的顺序任务流上的表现，并将真正的演化与标记消耗伪影区分开，而LifelongAgentBench则在交互式数据库、操作系统和知识图环境中构建基于技能的终身学习任务（Jiang et al., 2026 (https://arxiv.org/html/2606.17546#bib.bib20)；Zheng et al., 2025 (https://arxiv.org/html/2606.17546#bib.bib21)）。

SEAGym: 自进化LLM代理的评估环境

相似文章

MemGym：面向LLM智能体的长时记忆环境

SEAL: 智能体与学习环境的协同共演化

SEAL: 智能体与学习环境的协同共进化

CoEvolve：通过智能体-数据互进化训练LLM智能体

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

提交意见反馈