BenchTrace：用于测试LLM智能体反思能力与受控演进的基准

arXiv cs.AI 2026/05/29 04:00 论文

benchmark llm-agents reflection self-evolution evaluation failure-analysis

摘要

BenchTrace是一个用于评估LLM智能体自我进化能力的基准，重点通过包含1,821个标注回合的数据集以及两个评估任务——反思评估与进化评估——来测试反思与受控演进。使用Qwen3-32B和GPT-4.1进行的实验表明，两个模型均表现不佳，主要瓶颈在于诊断，并存在泛化与遗忘问题。

arXiv:2605.29225v1 公告类型：新摘要：自我进化智能体通过反思过往失败来逐步改进，但现有评估存在两个局限：它仅衡量任务得分，不揭示反思质量；并且它依赖智能体自身的回合运行，没有提供针对特定失败模式的机制。我们提出 \textbf{BenchTrace}，一个用于评估LLM智能体自我进化能力的基准。BenchTrace 构建于一个包含1,821个标注回合的快照反思数据集之上，涵盖六项不同的任务，并包含一个 \textbf{反思评估}，通过有针对性的问答任务探查失败识别能力，以及一个 \textbf{进化评估}，测试在受控的自我进化模拟中，过去的失败经验是否能转化为回避行为。基于 BenchTrace，我们提出 \textbf{失败回避率（FAR）}，这是一种新的评估指标，衡量智能体成功回避目标失败实例的测试用例比例。使用 Qwen3-32B 和 GPT-4.1 进行的实验表明，两个模型在反思评估中的端到端通过率均低于30\%，主要瓶颈在于诊断环节。进化评估显示，自我进化方法通常比无进化基线提高了FAR，但随着噪声回合的累积，智能体会遗忘早期教训，并且智能体无法将其反思泛化到特定情境之外，导致跨任务情境的负迁移。我们的相关性分析进一步揭示，只有完全正确的反思才与较高的FAR显著相关。BenchTrace 揭示了当前自我进化方法的具体局限，并提供了一个受控的、与模型无关的定向评估框架。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:14

# BenchTrace：用于测试LLM智能体反思能力与受控演化能力的基准测试  
来源：https://arxiv.org/html/2605.29225  

黄嘉豪¹，程菲²,³，蒋俊峰³，余泽凡¹，相泽秋子¹,³  
¹东京大学，²京都大学，³国立信息学研究所  
\{jiahao\-huang, yzf930\}@g\.ecc\.u\-tokyo\.ac\.jp  
feicheng@i\.kyoto\-u\.ac\.jp  
\{jiang, aizawa\}@nii\.ac\.jp  

###### 摘要  

自演化智能体通过反思过往失败而不断提升，但现有评估存在两个局限：一方面仅衡量任务得分，无法揭示反思质量；另一方面依赖智能体自身的回合运行，缺少针对特定失败模式的机制。本文提出**BenchTrace**——一个用于评估LLM智能体自演化能力的基准测试。BenchTrace构建于包含1821个带标注回合的快照-反思数据集之上，涵盖六种不同任务；它包括**反思评估**（通过针对性问答任务探测失败识别能力）和**演化评估**（在受控的自演化模拟中检验过往失败经验能否转化为回避行为）。基于BenchTrace，我们提出**失败回避率（FAR）**这一新评估指标，衡量智能体在测试用例中成功避免目标失败实例的比例。使用Qwen3-32B和GPT-4.1的实验表明，两种模型在反思评估中的端到端通过率均低于30%，其中诊断是主要瓶颈。演化评估显示，自演化方法通常能比非演化基线提高FAR，但随着噪声回合累积，智能体会遗忘早期教训，且智能体无法将其反思泛化到具体情境之外，导致跨任务情境的负迁移。我们的相关性分析进一步揭示：只有完全正确的反思与较高的FAR显著相关。BenchTrace揭示了当前自演化方法的具体局限，并为针对性评估提供了一个受控、模型无关的框架。  

**BenchTrace：用于测试LLM智能体反思能力与受控演化能力的基准测试**  
参考图1：(a) 传统自演化智能体评估仅衡量最终任务得分。(b) BenchTrace通过三个阶段构建数据集：快照收集、失败检测、反思标注。(c) BenchTrace包含一个**快照-反思数据集**和一个**评估套件**，后者包括**反思评估**和**演化评估**。  

## 1 引言  

大型语言模型（LLM）智能体在各类复杂、长期智能体任务中展示了卓越能力 [Yao et al., 2022](https://arxiv.org/html/2605.29225#bib.bib5)。一个特别有前景的研究方向是**自演化**：与部署后保持静态的传统LLM不同，自演化智能体通过从过往经验和失败中学习，持续提升性能 [Shinn et al., 2023](https://arxiv.org/html/2605.29225#bib.bib6)。自演化智能体在多个**回合**中迭代改进 [Gao et al., 2026](https://arxiv.org/html/2605.29225#bib.bib1)，每个回合是智能体与任务环境之间完整的、自包含的交互轨迹（参见附录A中的示例）。自演化智能体通常通过非参数方法改进，例如在外部记忆中积累失败教训 [Shinn et al., 2023](https://arxiv.org/html/2605.29225#bib.bib6); [Wei et al., 2025](https://arxiv.org/html/2605.29225#bib.bib13); [Zhang et al., 2026](https://arxiv.org/html/2605.29225#bib.bib8)，迭代优化智能体的指导提示 [He et al., 2025](https://arxiv.org/html/2605.29225#bib.bib7)，以及构建可复用的技能工件 [Yang et al., 2026](https://arxiv.org/html/2605.29225#bib.bib11)。智能体的自演化性能最终取决于两个因素：**基础LLM**反思过往失败的能力，以及**智能体**的演化算法及其有效性。  

然而，现有自演化智能体的评估存在两个问题（图1(a)）。第一，**可解释性问题**：仅衡量任务得分是否提升，而未能将基础LLM的反思能力与智能体的演化效果解耦。第二，**可控性问题**：由于评估依赖智能体自身的回合运行，其遭遇的失败经验无法控制，从而无法隔离自演化的特定方面。  

为此，我们提出**BenchTrace**——用于测试LLM智能体**反思能力**与**受控演化**的基准测试。BenchTrace构建于一个快照-反思数据集之上。**快照**是由智能体生成的回合，记录了完整的交互轨迹和最终结果。**反思**是对快照中核心失败实例的结构化标注，遵循检测、定位和诊断的层次结构。**检测**询问快照是否包含值得解决的失败。**定位**确定失败发生在哪些步骤。**诊断**分类失败模式并解释其原因。图1(c)展示了数据集中的一个代表性示例。  

BenchTrace通过两个独立的评估来解决可解释性问题：**反思评估**直接通过各层次问答任务探测基础LLM能否识别过往回合中的失败，将反思质量与任务结果分离。**演化评估**更进一步，从诊断转向行为：它向智能体呈现受控的快照序列以模拟自演化过程，并评估其在后续回合中的表现。  

BenchTrace还从两个维度解决可控性问题。从演化视角看，我们可以构建特定的快照序列来隔离特定的演化模式。从跨模型比较视角看，任何智能体框架都可在相同的演化快照序列上进行评估，使评估成为模型无关的，并支持方法间的公平比较。  

总之，本文做出以下贡献：¹¹¹代码见 https://github.com/Alab-NII/BenchTrace，数据集见 https://huggingface.co/datasets/huangjh16/BenchTrace。  

(i) 我们引入了一个高质量的**快照-反思数据集**，涵盖多样化任务，每个快照都标注了导致任务失败的核心失败实例。  
(ii) BenchTrace提供了**反思评估**（通过问答任务评估基础LLM的反思能力）和**演化评估**（通过受控快照序列评估智能体的演化效果），共同解决了可解释性和可控性问题。  
(iii) 将BenchTrace应用于当前自演化方法，揭示了当前自演化智能体的两个具体局限：(a) 智能体在噪声回合累积后会遗忘早期教训，以及 (b) 智能体无法将其反思泛化到具体情境之外，导致跨任务情境的负迁移。  

## 2 相关工作  

### 2.1 自演化智能体  

ReAct [Yao et al., 2022](https://arxiv.org/html/2605.29225#bib.bib5) 通过将推理和行动步骤交错来增强LLM，但未在回合间积累经验。自演化智能体通过实现跨回合学习来解决这一问题，保持模型冻结，仅演化智能体的上下文或记忆。**基于实例**的方法存储过往回合并在查询时检索相关实例：RAG [Lewis et al., 2020](https://arxiv.org/html/2605.29225#bib.bib23) 通过语义相似度检索，而ReMem [Wei et al., 2025](https://arxiv.org/html/2605.29225#bib.bib13) 和 MemRL [Zhang et al., 2026](https://arxiv.org/html/2605.29225#bib.bib8) 分别通过存储记忆的元推理和基于价值的检索策略改进。**基于抽象**的方法将过往失败提炼为口头教训：Reflexion [Shinn et al., 2023](https://arxiv.org/html/2605.29225#bib.bib6) 生成自我批评作为情景记忆，而EvoTest [He et al., 2025](https://arxiv.org/html/2605.29225#bib.bib7) 通过联合更新记忆和重写指导提示结合两种策略。AutoSkill [Yang et al., 2026](https://arxiv.org/html/2605.29225#bib.bib11) 采用不同方法，在会话间累积版本化的行为技能工件。  

### 2.2 用于评估自演化智能体的基准测试  

现有基准测试提供两种类型的任务。**基于环境**的任务将智能体置于模拟世界中，需要执行顺序动作，涵盖基于文本的游戏 [Hausknecht et al., 2020](https://arxiv.org/html/2605.29225#bib.bib14)、家居操作 [Shridhar et al., 2021](https://arxiv.org/html/2605.29225#bib.bib17)、网格导航 [Chevalier-Boisvert et al., 2019](https://arxiv.org/html/2605.29225#bib.bib16) 和科学实验 [Wang et al., 2022](https://arxiv.org/html/2605.29225#bib.bib15)。**基于信息**的任务需要在多个会话中处理信息密集型查询：Evo-Memory [Wei et al., 2025](https://arxiv.org/html/2605.29225#bib.bib13) 涵盖问答和工具使用流，而MemoryArena [He et al., 2026](https://arxiv.org/html/2605.29225#bib.bib19) 通过网页购物、旅行规划和形式推理测试跨会话保持能力。然而，这两类任务都依赖聚合的结果指标，不提供智能体应从过往失败中学到什么的地面真值标注，因此无法直接评估反思质量。  

## 3 BenchTrace基准测试  

### 3.1 概述  

BenchTrace包含两个组成部分。**数据集**是快照的集合，每个快照配有沿检测、定位、诊断层次结构的地面真值反思标注。**评估套件**构建于数据集之上，包含两种评估：**反思评估**衡量智能体理解并诊断单个失败的能力；**演化评估**测试这种理解是否能在精心设计的快照序列中转化为避免类似错误的能力。  

### 3.2 快照-反思数据集  

#### 3.2.1 失败分类体系  

自演化从根本上由智能体反思其失败的能力驱动。因此，我们首先定义一个精确的失败分类体系，作为本文其余部分的基础：  

- **失败类别**：顶层分组，包含三类。**系统类**失败涉及智能体输出中的语法或格式违规。**策略类**失败反映在多个步骤中展开的高层规划缺陷。图1(c)中的*循环*失败是代表性案例：智能体因未能采纳有效探索策略而在同一两个位置间振荡，无法取得进展。**操作类**失败是局限于单个步骤的执行错误。一个代表性案例是*反馈盲视*：智能体忽略明确警告，仍执行错误动作。  
- **失败模式**：类别内反复出现的错误类型，以适用于任务内不同回合的抽象级别定义。上述*循环*和*反馈盲视*案例分别是各自失败类别中的失败模式。失败模式因任务而异，每个任务的完整集合见附录C.1。  
- **失败实例**：特定回合中特定位置出现失败模式的具体实例，由步骤范围和对智能体错误的描述标识。图1(c)展示了一个包含*循环*失败实例的快照示例。  

#### 3.2.2 数据集收集流程  

数据集设计有两个目标：覆盖广泛多样的失败实例，并为每个快照配对高质量的反思标注。如图1(b)所示，我们通过三个阶段构建数据集：快照收集、失败实例检测、反思标注。  

##### 快照收集  

对于每个任务，我们运行多个基础模型和自演化智能体框架的组合，每个组合在多个回合中迭代尝试任务。当智能体的演化因反思能力不足而停滞时，人工标注员介入，帮助定位失败并引导智能体继续演化。所有回合都被记录为候选快照。这种迭代式人工在环方法产生多样化的失败实例集合，包括单个智能体自然无法遇到的深层失败（见附录B.1中的表6）。  

##### 失败检测  

我们首先让人工标注员检查小批量的快照，识别常见失败模式，这些模式随后被实现为基于规则的检测器。这些检测器应用于过滤所有候选快照，仅保留那些引入数据集中尚未代表的失败实例的快照。这防止了任何单个失败实例被过度代表。例如，给定图1(c)中的循环失败实例，我们会丢弃显示相同地点（院子和办公室）间循环的其他快照，转而寻找在其他地点表现循环或不同模式失败的快照。  

##### 反思标注  

此阶段旨在为每个保留的快照生成高质量标注。每个快照由两名AI标注员独立标注：Claude-Sonnet-4.6 [Anthropic, 2026](https://arxiv.org/html/2605.29225#bib.bib3) 和 Gemini-2.5-Flash [Gemini Team, 2025](https://arxiv.org/html/2605.29225#bib.bib4)，遵循附录B.2中描述的结构化协议。对于每个识别的失败实例，标注员提供定位（定义为步骤范围）和诊断（包括失败模式及一句根本原因描述）。标注员还被提示为每个失败实例分配一个级别：**核心**（直接导致回合失败或阻止显著得分提升的实例）和**边缘**（对最终结果影响有限的真实错误）。每个标注员每个快照最多标注三个核心失败实例，边缘实例数量不限。如果失败不符合现有类别，标注员还可提出新的失败模式。对于任一标注员标记为核心的任何失败实例，人类专家对定位、诊断和级别的冲突进行仲裁。标注员间一致性见附录B.3。  

这三个阶段共同构成了快照-反思数据集。完整条目格式见附录C.2。  

### 3.3 评估套件  

评估套件包括**反思评估**和**演化评估**，代表性示例见图1(c)。反思评估直接针对基础模型：给定一个快照，它探测模型是否能检测、定位和诊断收集的快照中的智能体失败。演化评估针对智能体框架：它衡量智能体在接触到特定过往失败快照后，是否能在未来回合中避免犯同样的错误。

BenchTrace：用于测试LLM智能体反思能力与受控演进的基准

相似文章

MemEvoBench：LLM 代理内存误演化基准测试

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

是时候 REFLECT 了：我们能信任 LLM 评判者来评估基于证据的研究代理吗？

GroupMemBench：多轮对话中LLM代理记忆的基准测试

EnvSimBench：用于评估和改善基于大语言模型的环境模拟的基准

提交意见反馈