swe-agent

#swe-agent

@xdotli：mini-swe-agent 令人印象深刻。仅100行代码、一个bash工具、每个模型使用相同提示，就在 @datacurve 的 DeepSWE 排行榜上名列前茅……

X AI KOLs Timeline ↗ · 4天前缓存

mini-swe-agent 是一个极简的开源 SWE-agent 实现，仅用 100 行代码和一个 bash 工具就能在 DeepSWE 基准测试中登顶。团队还开源了用于交互式使用的 mini-swe-code 和用于跨基准评估的 mini-swe-acp。

0 人收藏 0 人点赞

#swe-agent

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

AgentLens 是一个用于软件工程智能体轨迹过程级评估的框架，揭示了超过 10% 的通过轨迹表现出 'Lucky Pass' 行为。它引入了 AgentLens-Bench，一个带有质量评分标注的数据集，并表明按质量评分排序可以显著改变模型排名。

0 人收藏 0 人点赞