@xdotli:mini-swe-agent 令人印象深刻。仅100行代码、一个bash工具、每个模型使用相同提示,就在 @datacurve 的 DeepSWE 排行榜上名列前茅……

X AI KOLs Timeline 工具

摘要

mini-swe-agent 是一个极简的开源 SWE-agent 实现,仅用 100 行代码和一个 bash 工具就能在 DeepSWE 基准测试中登顶。团队还开源了用于交互式使用的 mini-swe-code 和用于跨基准评估的 mini-swe-acp。

mini-swe-agent 令人印象深刻。 100 行代码,一个 bash 工具,每个模型使用相同提示 在 @datacurve 的 DeepSWE 上名列前茅,匹配甚至超越了供应商自身的评估工具。 因此我们围绕它开源了两样东西: - mini-swe-code:在 @opencode 的 TUI 中体验,一条命令:mini-opencode --attach - mini-swe-acp:通过 @benchflow_ai (ACP) 在任何基准测试中作为评估工具运行 感谢 @KLieret @jyangballin @ArpandeepKhatua 以及 SWE-agent 团队。仓库在 欢迎我们新来的 MTS 实习生 @bingran_bry,他刚从伯克利量子物理学博士项目加入 @benchflow_ai!
查看原文
查看缓存全文

缓存时间: 2026/06/12 06:54

mini-swe-agent 令人印象深刻。

仅100行代码,一个bash工具,为每个模型提供相同的提示。

在 @datacurve 的 DeepSWE 上排名第一,与供应商自己的测试框架相当甚至更优。

因此我们围绕它开源了两个项目:

  • mini-swe-code:在 @opencode 的 TUI 中尝试,一条命令:mini-opencode –attach
  • mini-swe-acp:通过 @benchflow_ai (ACP) 在任何基准测试上作为评估框架运行。

向 @KLieret @jyangballin @ArpandeepKhatua 和 SWE-agent 团队致敬。仓库在

欢迎我们的新 MTS 实习生 @bingran_bry,他最近从伯克利量子物理博士项目加入 @benchflow_ai!

相似文章

有人对新DeepSWE进行了审计,结果不太好看

Reddit r/singularity

DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。

DeNovoSWE: 扩展长时域环境以从零生成完整代码仓库

Hugging Face Daily Papers

DeNovoSWE是一个大规模数据集,用于训练代码智能体从文档生成完整软件仓库,采用沙盒代理工作流和难度感知过滤。在此数据集上微调Qwen3-30B-A3B将BeyondSWE-Doc2Repo基准的性能从5.8%提升至47.2%。

@garrytan: 这是工程评估的新标准

X AI KOLs Following

宣布推出 DeepSWE,这是一个新的代理式编码基准测试,揭示了模型之间的真实差异,反映了现实世界开发者的体验。

SWE-Explore:编码代理仓库探索能力基准测试

Hugging Face Daily Papers

SWE-Explore 引入了一个基准测试,用于评估编码代理的仓库探索能力,要求在行预算内返回相关代码区域的排序列表。实验表明,基于代理的探索优于传统检索,而行级覆盖仍然是关键区分因素。