AgentLens: 揭示 SWE-Agent 评估中的 Lucky Pass 问题

Hugging Face Daily Papers 论文

摘要

AgentLens 是一个用于软件工程智能体轨迹过程级评估的框架,揭示了超过 10% 的通过轨迹表现出 'Lucky Pass' 行为。它引入了 AgentLens-Bench,一个带有质量评分标注的数据集,并表明按质量评分排序可以显著改变模型排名。

软件工程(SWE)智能体的评估主要基于一个二元信号:最终补丁是否通过测试。这种仅关注结果的观点将原则性解决方案与混乱的试错过程视为等同。我们通过经验证明这种等同性并不成立。 我们在 60 个 SWE-bench Verified 任务上评估了来自八个模型后端的 2,614 条 OpenHands 轨迹。其中,47 个任务有足够多的通过轨迹来构建任务级过程参考,从而得到一个包含 1,815 条轨迹的评估子集。在该子集的通过轨迹中,有 10.7% 表现出我们称之为 Lucky Pass 的行为:回归循环、盲目重试、缺失验证,或时间上无序的探索、实现和验证。 我们引入了 AgentLens,一个用于 SWE-agent 轨迹过程级评估的框架,并发布了 AgentLens-Bench,这是一个包含 1,815 条轨迹的数据集,标注了质量评分、浪费信号、分歧点以及 47 个任务级前缀树接受器(PTA)参考。AgentLens 通过合并同一任务的多个通过解决方案来构建 PTA 参考,并使用上下文敏感的意图标注器,根据轨迹历史而非仅工具身份将动作分配给探索、实现、验证或编排。 在 AgentLens-Bench 上,质量评分将通过轨迹分为 Lucky、Solid 和 Ideal 三个等级,并进一步将 Lucky Pass 分解为五种常见机制。在八个模型后端中,Lucky 率从 0.5% 到 23.2% 不等,一些模型按质量评分而非通过率排序时,排名位置变动多达五位。我们在 https://github.com/microsoft/code-agent-state-trajectories/ 发布了匿名化的项目仓库,包括 AgentLens-Bench 数据集和 AgentLens SDK。
查看原文
查看缓存全文

缓存时间: 2026/05/14 04:16

论文页面 - AgentLens: 揭示SWE智能体评估中的“幸运通过“问题

来源: https://huggingface.co/papers/2605.12925

摘要

软件工程智能体通过一个过程级框架进行评估,该框架揭示了有效方法与无效方法之间的差异,识别出诸如“幸运通过“等模式,并为改进评估提供质量评分。

软件工程(SWE)智能体的评估主要依赖一个二元信号:最终补丁是否通过测试。这种仅关注结果的视角将原理性解决方案与混乱的试错过程视为等同。我们证明这种等同性在经验上是错误的。我们评估了来自八个模型后端的2,614条OpenHands轨迹,这些轨迹针对60个SWE-bench验证任务(https://huggingface.co/papers?q=SWE-bench%20Verified%20tasks)。其中,47个任务拥有足够多的通过轨迹以构建任务级过程参考,形成包含1,815条轨迹的评估(https://huggingface.co/papers?q=trajectory%20evaluation)子集。在该子集的通过轨迹中,10.7%表现出我们称之为“幸运通过“(Lucky Pass)的行为:回归循环、盲目重试、缺少验证(https://huggingface.co/papers?q=verification),或探索(https://huggingface.co/papers?q=exploration)、实现(https://huggingface.co/papers?q=implementation)和验证(https://huggingface.co/papers?q=verification)在时间上无序。我们引入了AgentLens(https://huggingface.co/papers?q=AgentLens),一个用于SWE智能体轨迹过程级评估的框架,并发布了AgentLens-Bench(https://huggingface.co/papers?q=AgentLens-Bench)数据集,其中包含1,815条带有质量分数(https://huggingface.co/papers?q=quality%20scores)、浪费信号(https://huggingface.co/papers?q=waste%20signals)、分歧点(https://huggingface.co/papers?q=divergence%20points)以及47个任务级前缀树接收器(PTA)(https://huggingface.co/papers?q=Prefix%20Tree%20Acceptor%20(PTA))参考的轨迹。AgentLens(https://huggingface.co/papers?q=AgentLens)通过合并同一任务的多个通过解决方案来构建PTA参考,并使用一个上下文敏感意图标注器(https://huggingface.co/papers?q=context-sensitive%20intent%20labeler),根据轨迹历史(而非仅工具身份)将动作分配给探索(https://huggingface.co/papers?q=Exploration)、实现(https://huggingface.co/papers?q=Implementation)、验证(https://huggingface.co/papers?q=Verification)或编排(https://huggingface.co/papers?q=Orchestration)。在AgentLens-Bench(https://huggingface.co/papers?q=AgentLens-Bench)上,质量分数将通过的轨迹划分为幸运(Lucky)、稳健(Solid)和理想(Ideal)等级,并进一步将“幸运通过“分解为五种常见机制。在八个模型后端中,“幸运“率(Lucky rates)从0.5%到23.2%不等,一些模型按质量分数排序时相比按通过率排序移动了多达五个排名位置。我们在https://github.com/microsoft/code-agent-state-trajectories/ 发布了匿名化项目仓库,包括AgentLens-Bench(https://huggingface.co/papers?q=AgentLens-Bench)数据集和AgentLens(https://huggingface.co/papers?q=AgentLens)SDK。

查看arXiv页面 (https://arxiv.org/abs/2605.12925) 查看PDF (https://arxiv.org/pdf/2605.12925) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12925)

在您的智能体中获取此论文:

hf papers read 2605\.12925

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型的README.md中引用 arxiv.org/abs/2605.12925 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用 arxiv.org/abs/2605.12925 以从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space的README.md中引用 arxiv.org/abs/2605.12925 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

Bayesian-Agent:后验引导的LLM代理技能进化框架

Hugging Face Daily Papers

Bayesian-Agent 提出了一种框架,将可重复使用的技能和SOP视为假设,通过贝叶斯推理指导代理行为,并利用后验引导的框架优化提升任务性能。使用deepseek-v4-flash在多个基准上取得了显著改进。

AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者

arXiv cs.CL

本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。

OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试

arXiv cs.AI

本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。