有人对新DeepSWE进行了审计,结果不太好看
摘要
DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。
查看缓存全文
缓存时间: 2026/06/03 21:47
datacurve-ai/deep-swe 源:https://github.com/datacurve-ai/deep-swe
DeepSWE(https://deepswe.datacurve.ai/)
DeepSWE 是一个基准测试,用于衡量前沿编码智能体在源自活跃开源仓库的、原始且长周期的软件工程任务上的表现。该基准包含 113 个任务,涵盖 TypeScript、Go、Python、JavaScript 和 Rust,使用隔离环境和基于程序的验证器。
任务格式
DeepSWE 任务采用 Harbor(https://www.harborframework.com/docs/tasks)任务格式:
text task.toml
元数据:仓库、基准提交、语言、预构建镜像、资源限制
instruction.md
智能体看到的提示
environment/
用于复现预构建镜像的 Dockerfile(镜像不可用时回退)
tests/
验证器:test.sh(入口)+ test.patch(测试补充,评分时应用)
solution/
参考解决方案(对智能体隐藏;供人工和 AI 审核者使用)
验证器执行提示中描述的行为。它接受任何可观察行为正确的解决方案,无论其内部符号名称或结构如何。solution/ 中的参考补丁在评分时从不使用;它仅用于审核者离线抽查正确性。
快速开始
使用 Pier(https://github.com/datacurve-ai/pier)运行基准:
git clone https://github.com/datacurve-ai/deep-swe
uv tool install datacurve-pier
# Claude Opus 4.7 via Claude Code
export ANTHROPIC_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model anthropic/claude-opus-4-7
# GPT-5.5 via Codex
export OPENAI_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model openai/gpt-5.5
什么是 Pier
Pier(https://github.com/datacurve-ai/pier)是一个与 Harbor(https://www.harborframework.com/docs/tasks)兼容的框架,用于沙盒化编码智能体评估。它最初是 Harbor 的一个分支,用于在离线任务中支持 CLI 智能体:Harbor 在 allow_internet = false 的任务中会阻止所有出站流量,包括依赖安装和 LLM API 调用。Pier 添加了每个智能体的网络白名单,允许智能体仅访问所需的网络,同时保持任务环境的隔离。
Pier 还增加了更完整的轨迹元数据、更好的轨迹查看器,以及用于分析智能体轨迹的 pier critique run 命令。所有排行榜分数均通过 Pier 在 Modal 上运行 mini-swe-agent 产生。
智能体和模型
mini-swe-agent 与模型无关。Pier 还直接驱动 claude-code、codex、gemini-cli 和 opencode。传递 --env modal 可在 Modal 上的并行沙盒中运行。
子集与单个任务
从 113 个任务中确定性随机抽取子集:
pier run -p deep-swe/tasks --agent mini-swe-agent --n-tasks 10 --sample-seed 0
单个任务:
pier run -p deep-swe/tasks/ --agent mini-swe-agent
相似文章
新DeepSWE基准测试发现Claude Opus作弊
Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。
@garrytan: 这是工程评估的新标准
宣布推出 DeepSWE,这是一个新的代理式编码基准测试,揭示了模型之间的真实差异,反映了现实世界开发者的体验。
DeepSWE基准测试显示,DeepSeek v4 Pro仅通过8%的任务
关于DeepSWE基准测试的讨论显示,DeepSeek v4 Pro仅通过了8%的任务,与它在类似任务上的表现相比,这个分数低得令人惊讶。
介绍 SWE-bench Verified
# 介绍 SWE-bench Verified 来源: [https://openai.com/index/introducing-swe-bench-verified/](https://openai.com/index/introducing-swe-bench-verified/) 我们发布了 SWE-bench 的人工验证子集,能更可靠地评估 AI 模型解决实际软件问题的能力。*更新于 2025 年 2 月 24 日* 作为我们[准备框架](https://openai.com/preparedness/)的一部分,OpenAI 开发了一系列指标来追踪、评估和预测模型的自主行动能力
像DeepSWE这样的新基准测试现在显示专有模型与开源模型之间存在巨大差距
像DeepSWE这样的新基准测试揭示了专有与开源AI模型之间的显著性能差距,令开源社区感到失望。