swe-agent

标签

Cards List
#swe-agent

AgentLens: 揭示 SWE-Agent 评估中的 Lucky Pass 问题

Hugging Face Daily Papers · 2026-05-13 缓存

AgentLens 是一个用于软件工程智能体轨迹过程级评估的框架,揭示了超过 10% 的通过轨迹表现出 'Lucky Pass' 行为。它引入了 AgentLens-Bench,一个带有质量评分标注的数据集,并表明按质量评分排序可以显著改变模型排名。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈