@xdotli:mini-swe-agent 令人印象深刻。仅100行代码、一个bash工具、每个模型使用相同提示,就在 @datacurve 的 DeepSWE 排行榜上名列前茅……
摘要
mini-swe-agent 是一个极简的开源 SWE-agent 实现,仅用 100 行代码和一个 bash 工具就能在 DeepSWE 基准测试中登顶。团队还开源了用于交互式使用的 mini-swe-code 和用于跨基准评估的 mini-swe-acp。
查看缓存全文
缓存时间: 2026/06/12 06:54
mini-swe-agent 令人印象深刻。
仅100行代码,一个bash工具,为每个模型提供相同的提示。
在 @datacurve 的 DeepSWE 上排名第一,与供应商自己的测试框架相当甚至更优。
因此我们围绕它开源了两个项目:
- mini-swe-code:在 @opencode 的 TUI 中尝试,一条命令:mini-opencode –attach
- mini-swe-acp:通过 @benchflow_ai (ACP) 在任何基准测试上作为评估框架运行。
向 @KLieret @jyangballin @ArpandeepKhatua 和 SWE-agent 团队致敬。仓库在
欢迎我们的新 MTS 实习生 @bingran_bry,他最近从伯克利量子物理博士项目加入 @benchflow_ai!
相似文章
有人对新DeepSWE进行了审计,结果不太好看
DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。
DeNovoSWE: 扩展长时域环境以从零生成完整代码仓库
DeNovoSWE是一个大规模数据集,用于训练代码智能体从文档生成完整软件仓库,采用沙盒代理工作流和难度感知过滤。在此数据集上微调Qwen3-30B-A3B将BeyondSWE-Doc2Repo基准的性能从5.8%提升至47.2%。
@garrytan: 这是工程评估的新标准
宣布推出 DeepSWE,这是一个新的代理式编码基准测试,揭示了模型之间的真实差异,反映了现实世界开发者的体验。
SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情
新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识,凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案,并提到了 langmem、mem0、supermemory 和 Greplica 等工具。
SWE-Explore:编码代理仓库探索能力基准测试
SWE-Explore 引入了一个基准测试,用于评估编码代理的仓库探索能力,要求在行预算内返回相关代码区域的排序列表。实验表明,基于代理的探索优于传统检索,而行级覆盖仍然是关键区分因素。