AgentLens: 揭示 SWE-Agent 评估中的 Lucky Pass 问题

Hugging Face Daily Papers 2026/05/13 00:00 论文

swe-agent evaluation lucky-pass process-assessment trajectory-analysis quality-scoring

摘要

AgentLens 是一个用于软件工程智能体轨迹过程级评估的框架，揭示了超过 10% 的通过轨迹表现出 'Lucky Pass' 行为。它引入了 AgentLens-Bench，一个带有质量评分标注的数据集，并表明按质量评分排序可以显著改变模型排名。

软件工程（SWE）智能体的评估主要基于一个二元信号：最终补丁是否通过测试。这种仅关注结果的观点将原则性解决方案与混乱的试错过程视为等同。我们通过经验证明这种等同性并不成立。我们在 60 个 SWE-bench Verified 任务上评估了来自八个模型后端的 2,614 条 OpenHands 轨迹。其中，47 个任务有足够多的通过轨迹来构建任务级过程参考，从而得到一个包含 1,815 条轨迹的评估子集。在该子集的通过轨迹中，有 10.7% 表现出我们称之为 Lucky Pass 的行为：回归循环、盲目重试、缺失验证，或时间上无序的探索、实现和验证。我们引入了 AgentLens，一个用于 SWE-agent 轨迹过程级评估的框架，并发布了 AgentLens-Bench，这是一个包含 1,815 条轨迹的数据集，标注了质量评分、浪费信号、分歧点以及 47 个任务级前缀树接受器（PTA）参考。AgentLens 通过合并同一任务的多个通过解决方案来构建 PTA 参考，并使用上下文敏感的意图标注器，根据轨迹历史而非仅工具身份将动作分配给探索、实现、验证或编排。在 AgentLens-Bench 上，质量评分将通过轨迹分为 Lucky、Solid 和 Ideal 三个等级，并进一步将 Lucky Pass 分解为五种常见机制。在八个模型后端中，Lucky 率从 0.5% 到 23.2% 不等，一些模型按质量评分而非通过率排序时，排名位置变动多达五位。我们在 https://github.com/microsoft/code-agent-state-trajectories/ 发布了匿名化的项目仓库，包括 AgentLens-Bench 数据集和 AgentLens SDK。

查看原文

查看缓存全文

缓存时间: 2026/05/14 04:16

论文页面 - AgentLens: 揭示SWE智能体评估中的“幸运通过“问题

来源: https://huggingface.co/papers/2605.12925

摘要

软件工程智能体通过一个过程级框架进行评估，该框架揭示了有效方法与无效方法之间的差异，识别出诸如“幸运通过“等模式，并为改进评估提供质量评分。

软件工程（SWE）智能体的评估主要依赖一个二元信号：最终补丁是否通过测试。这种仅关注结果的视角将原理性解决方案与混乱的试错过程视为等同。我们证明这种等同性在经验上是错误的。我们评估了来自八个模型后端的2,614条OpenHands轨迹，这些轨迹针对60个SWE-bench验证任务（https://huggingface.co/papers?q=SWE-bench%20Verified%20tasks）。其中，47个任务拥有足够多的通过轨迹以构建任务级过程参考，形成包含1,815条轨迹的评估（https://huggingface.co/papers?q=trajectory%20evaluation）子集。在该子集的通过轨迹中，10.7%表现出我们称之为“幸运通过“（Lucky Pass）的行为：回归循环、盲目重试、缺少验证（https://huggingface.co/papers?q=verification），或探索（https://huggingface.co/papers?q=exploration）、实现（https://huggingface.co/papers?q=implementation）和验证（https://huggingface.co/papers?q=verification）在时间上无序。我们引入了AgentLens（https://huggingface.co/papers?q=AgentLens），一个用于SWE智能体轨迹过程级评估的框架，并发布了AgentLens-Bench（https://huggingface.co/papers?q=AgentLens-Bench）数据集，其中包含1,815条带有质量分数（https://huggingface.co/papers?q=quality%20scores）、浪费信号（https://huggingface.co/papers?q=waste%20signals）、分歧点（https://huggingface.co/papers?q=divergence%20points）以及47个任务级前缀树接收器（PTA）（https://huggingface.co/papers?q=Prefix%20Tree%20Acceptor%20(PTA)）参考的轨迹。AgentLens（https://huggingface.co/papers?q=AgentLens）通过合并同一任务的多个通过解决方案来构建PTA参考，并使用一个上下文敏感意图标注器（https://huggingface.co/papers?q=context-sensitive%20intent%20labeler），根据轨迹历史（而非仅工具身份）将动作分配给探索（https://huggingface.co/papers?q=Exploration）、实现（https://huggingface.co/papers?q=Implementation）、验证（https://huggingface.co/papers?q=Verification）或编排（https://huggingface.co/papers?q=Orchestration）。在AgentLens-Bench（https://huggingface.co/papers?q=AgentLens-Bench）上，质量分数将通过的轨迹划分为幸运（Lucky）、稳健（Solid）和理想（Ideal）等级，并进一步将“幸运通过“分解为五种常见机制。在八个模型后端中，“幸运“率（Lucky rates）从0.5%到23.2%不等，一些模型按质量分数排序时相比按通过率排序移动了多达五个排名位置。我们在https://github.com/microsoft/code-agent-state-trajectories/ 发布了匿名化项目仓库，包括AgentLens-Bench（https://huggingface.co/papers?q=AgentLens-Bench）数据集和AgentLens（https://huggingface.co/papers?q=AgentLens）SDK。

查看arXiv页面 (https://arxiv.org/abs/2605.12925) 查看PDF (https://arxiv.org/pdf/2605.12925) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12925)

在您的智能体中获取此论文：

hf papers read 2605\.12925

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型的README.md中引用 arxiv.org/abs/2605.12925 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用 arxiv.org/abs/2605.12925 以从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space的README.md中引用 arxiv.org/abs/2605.12925 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。

AgentLens: 揭示 SWE-Agent 评估中的 Lucky Pass 问题

论文页面 - AgentLens: 揭示SWE智能体评估中的“幸运通过“问题

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

Bayesian-Agent：后验引导的LLM代理技能进化框架

SkillLens：面向成本高效型大模型智能体的自适应多粒度技能复用

AgentCollabBench：诊断优秀智能体为何成为糟糕的协作者

Agent 评估：详细指南（53 分钟阅读）

OpenClawBench：真实世界代理执行轨迹中过程侧异常的基准测试

提交意见反馈