@xdotli：mini-swe-agent 令人印象深刻。仅100行代码、一个bash工具、每个模型使用相同提示，就在 @datacurve 的 DeepSWE 排行榜上名列前茅……

X AI KOLs Timeline 2026/06/12 04:26 工具

open-source swe-agent code-tool evaluation-harness command-line benchmarking

摘要

mini-swe-agent 是一个极简的开源 SWE-agent 实现，仅用 100 行代码和一个 bash 工具就能在 DeepSWE 基准测试中登顶。团队还开源了用于交互式使用的 mini-swe-code 和用于跨基准评估的 mini-swe-acp。

mini-swe-agent 令人印象深刻。 100 行代码，一个 bash 工具，每个模型使用相同提示在 @datacurve 的 DeepSWE 上名列前茅，匹配甚至超越了供应商自身的评估工具。因此我们围绕它开源了两样东西： - mini-swe-code：在 @opencode 的 TUI 中体验，一条命令：mini-opencode --attach - mini-swe-acp：通过 @benchflow_ai (ACP) 在任何基准测试中作为评估工具运行感谢 @KLieret @jyangballin @ArpandeepKhatua 以及 SWE-agent 团队。仓库在欢迎我们新来的 MTS 实习生 @bingran_bry，他刚从伯克利量子物理学博士项目加入 @benchflow_ai！

查看原文

查看缓存全文

缓存时间: 2026/06/12 06:54

mini-swe-agent 令人印象深刻。

仅100行代码，一个bash工具，为每个模型提供相同的提示。

在 @datacurve 的 DeepSWE 上排名第一，与供应商自己的测试框架相当甚至更优。

因此我们围绕它开源了两个项目：

mini-swe-code：在 @opencode 的 TUI 中尝试，一条命令：mini-opencode –attach
mini-swe-acp：通过 @benchflow_ai (ACP) 在任何基准测试上作为评估框架运行。

向 @KLieret @jyangballin @ArpandeepKhatua 和 SWE-agent 团队致敬。仓库在

欢迎我们的新 MTS 实习生 @bingran_bry，他最近从伯克利量子物理博士项目加入 @benchflow_ai！

@xdotli：mini-swe-agent 令人印象深刻。仅100行代码、一个bash工具、每个模型使用相同提示，就在 @datacurve 的 DeepSWE 排行榜上名列前茅……

相似文章

有人对新DeepSWE进行了审计，结果不太好看

DeNovoSWE: 扩展长时域环境以从零生成完整代码仓库

@garrytan: 这是工程评估的新标准

SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情

SWE-Explore：编码代理仓库探索能力基准测试

提交意见反馈