有人对新DeepSWE进行了审计,结果不太好看

Reddit r/singularity 工具

摘要

DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。

虽然这篇关于DeepSWE基准测试的GitHub文章主要关注DeepSeek在许多不该失败的地方失败,但它也揭示了该基准测试在实施过程中存在的许多问题。看起来这个基准测试是仓促推出的,在被视为他们所评估模型质量的可靠参考之前,还有很多工作要做。
查看原文
查看缓存全文

缓存时间: 2026/06/03 21:47

datacurve-ai/deep-swe 源:https://github.com/datacurve-ai/deep-swe

DeepSWE(https://deepswe.datacurve.ai/)

DeepSWE 是一个基准测试,用于衡量前沿编码智能体在源自活跃开源仓库的、原始且长周期的软件工程任务上的表现。该基准包含 113 个任务,涵盖 TypeScript、Go、Python、JavaScript 和 Rust,使用隔离环境和基于程序的验证器。

任务格式

DeepSWE 任务采用 Harbor(https://www.harborframework.com/docs/tasks)任务格式:

text task.toml
元数据:仓库、基准提交、语言、预构建镜像、资源限制

instruction.md
智能体看到的提示

environment/
用于复现预构建镜像的 Dockerfile(镜像不可用时回退)

tests/
验证器:test.sh(入口)+ test.patch(测试补充,评分时应用)

solution/
参考解决方案(对智能体隐藏;供人工和 AI 审核者使用)

验证器执行提示中描述的行为。它接受任何可观察行为正确的解决方案,无论其内部符号名称或结构如何。solution/ 中的参考补丁在评分时从不使用;它仅用于审核者离线抽查正确性。

快速开始

使用 Pier(https://github.com/datacurve-ai/pier)运行基准:

git clone https://github.com/datacurve-ai/deep-swe
uv tool install datacurve-pier

# Claude Opus 4.7 via Claude Code
export ANTHROPIC_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model anthropic/claude-opus-4-7

# GPT-5.5 via Codex
export OPENAI_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model openai/gpt-5.5

什么是 Pier

Pier(https://github.com/datacurve-ai/pier)是一个与 Harbor(https://www.harborframework.com/docs/tasks)兼容的框架,用于沙盒化编码智能体评估。它最初是 Harbor 的一个分支,用于在离线任务中支持 CLI 智能体:Harbor 在 allow_internet = false 的任务中会阻止所有出站流量,包括依赖安装和 LLM API 调用。Pier 添加了每个智能体的网络白名单,允许智能体仅访问所需的网络,同时保持任务环境的隔离。

Pier 还增加了更完整的轨迹元数据、更好的轨迹查看器,以及用于分析智能体轨迹的 pier critique run 命令。所有排行榜分数均通过 Pier 在 Modal 上运行 mini-swe-agent 产生。

智能体和模型

mini-swe-agent 与模型无关。Pier 还直接驱动 claude-codecodexgemini-cliopencode。传递 --env modal 可在 Modal 上的并行沙盒中运行。

子集与单个任务

从 113 个任务中确定性随机抽取子集:

pier run -p deep-swe/tasks --agent mini-swe-agent --n-tasks 10 --sample-seed 0

单个任务:

pier run -p deep-swe/tasks/ --agent mini-swe-agent

相似文章

新DeepSWE基准测试发现Claude Opus作弊

Reddit r/LocalLLaMA

Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。

@garrytan: 这是工程评估的新标准

X AI KOLs Following

宣布推出 DeepSWE,这是一个新的代理式编码基准测试,揭示了模型之间的真实差异,反映了现实世界开发者的体验。

介绍 SWE-bench Verified

OpenAI Blog

# 介绍 SWE-bench Verified 来源: [https://openai.com/index/introducing-swe-bench-verified/](https://openai.com/index/introducing-swe-bench-verified/) 我们发布了 SWE-bench 的人工验证子集,能更可靠地评估 AI 模型解决实际软件问题的能力。*更新于 2025 年 2 月 24 日* 作为我们[准备框架⁠](https://openai.com/preparedness/)的一部分,OpenAI 开发了一系列指标来追踪、评估和预测模型的自主行动能力