swe-agent

标签

Cards List
#swe-agent

@xdotli:mini-swe-agent 令人印象深刻。仅100行代码、一个bash工具、每个模型使用相同提示,就在 @datacurve 的 DeepSWE 排行榜上名列前茅……

X AI KOLs Timeline · 4天前 缓存

mini-swe-agent 是一个极简的开源 SWE-agent 实现,仅用 100 行代码和一个 bash 工具就能在 DeepSWE 基准测试中登顶。团队还开源了用于交互式使用的 mini-swe-code 和用于跨基准评估的 mini-swe-acp。

0 人收藏 0 人点赞
#swe-agent

AgentLens: 揭示 SWE-Agent 评估中的 Lucky Pass 问题

Hugging Face Daily Papers · 2026-05-13 缓存

AgentLens 是一个用于软件工程智能体轨迹过程级评估的框架,揭示了超过 10% 的通过轨迹表现出 'Lucky Pass' 行为。它引入了 AgentLens-Bench,一个带有质量评分标注的数据集,并表明按质量评分排序可以显著改变模型排名。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈