AgentLens: 揭示 SWE-Agent 评估中的 Lucky Pass 问题
摘要
AgentLens 是一个用于软件工程智能体轨迹过程级评估的框架,揭示了超过 10% 的通过轨迹表现出 'Lucky Pass' 行为。它引入了 AgentLens-Bench,一个带有质量评分标注的数据集,并表明按质量评分排序可以显著改变模型排名。
查看缓存全文
缓存时间: 2026/05/14 04:16
论文页面 - AgentLens: 揭示SWE智能体评估中的“幸运通过“问题
来源: https://huggingface.co/papers/2605.12925
摘要
软件工程智能体通过一个过程级框架进行评估,该框架揭示了有效方法与无效方法之间的差异,识别出诸如“幸运通过“等模式,并为改进评估提供质量评分。
软件工程(SWE)智能体的评估主要依赖一个二元信号:最终补丁是否通过测试。这种仅关注结果的视角将原理性解决方案与混乱的试错过程视为等同。我们证明这种等同性在经验上是错误的。我们评估了来自八个模型后端的2,614条OpenHands轨迹,这些轨迹针对60个SWE-bench验证任务(https://huggingface.co/papers?q=SWE-bench%20Verified%20tasks)。其中,47个任务拥有足够多的通过轨迹以构建任务级过程参考,形成包含1,815条轨迹的评估(https://huggingface.co/papers?q=trajectory%20evaluation)子集。在该子集的通过轨迹中,10.7%表现出我们称之为“幸运通过“(Lucky Pass)的行为:回归循环、盲目重试、缺少验证(https://huggingface.co/papers?q=verification),或探索(https://huggingface.co/papers?q=exploration)、实现(https://huggingface.co/papers?q=implementation)和验证(https://huggingface.co/papers?q=verification)在时间上无序。我们引入了AgentLens(https://huggingface.co/papers?q=AgentLens),一个用于SWE智能体轨迹过程级评估的框架,并发布了AgentLens-Bench(https://huggingface.co/papers?q=AgentLens-Bench)数据集,其中包含1,815条带有质量分数(https://huggingface.co/papers?q=quality%20scores)、浪费信号(https://huggingface.co/papers?q=waste%20signals)、分歧点(https://huggingface.co/papers?q=divergence%20points)以及47个任务级前缀树接收器(PTA)(https://huggingface.co/papers?q=Prefix%20Tree%20Acceptor%20(PTA))参考的轨迹。AgentLens(https://huggingface.co/papers?q=AgentLens)通过合并同一任务的多个通过解决方案来构建PTA参考,并使用一个上下文敏感意图标注器(https://huggingface.co/papers?q=context-sensitive%20intent%20labeler),根据轨迹历史(而非仅工具身份)将动作分配给探索(https://huggingface.co/papers?q=Exploration)、实现(https://huggingface.co/papers?q=Implementation)、验证(https://huggingface.co/papers?q=Verification)或编排(https://huggingface.co/papers?q=Orchestration)。在AgentLens-Bench(https://huggingface.co/papers?q=AgentLens-Bench)上,质量分数将通过的轨迹划分为幸运(Lucky)、稳健(Solid)和理想(Ideal)等级,并进一步将“幸运通过“分解为五种常见机制。在八个模型后端中,“幸运“率(Lucky rates)从0.5%到23.2%不等,一些模型按质量分数排序时相比按通过率排序移动了多达五个排名位置。我们在https://github.com/microsoft/code-agent-state-trajectories/ 发布了匿名化项目仓库,包括AgentLens-Bench(https://huggingface.co/papers?q=AgentLens-Bench)数据集和AgentLens(https://huggingface.co/papers?q=AgentLens)SDK。
查看arXiv页面 (https://arxiv.org/abs/2605.12925) 查看PDF (https://arxiv.org/pdf/2605.12925) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12925)
在您的智能体中获取此论文:
hf papers read 2605\.12925
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型的README.md中引用 arxiv.org/abs/2605.12925 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集的README.md中引用 arxiv.org/abs/2605.12925 以从此页面链接。
引用此论文的Space0
没有Space链接此论文
在Space的README.md中引用 arxiv.org/abs/2605.12925 以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
Bayesian-Agent:后验引导的LLM代理技能进化框架
Bayesian-Agent 提出了一种框架,将可重复使用的技能和SOP视为假设,通过贝叶斯推理指导代理行为,并利用后验引导的框架优化提升任务性能。使用deepseek-v4-flash在多个基准上取得了显著改进。
SkillLens:面向成本高效型大模型智能体的自适应多粒度技能复用
本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。
AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者
本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。
Agent 评估:详细指南(53 分钟阅读)
关于评估基于 LLM 的 Agent 系统的全面指南,涵盖基本概念、评估框架以及来自近期基准测试的案例研究。
OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试
本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。