有人对新DeepSWE进行了审计，结果不太好看

Reddit r/singularity 2026/06/03 19:50 工具

摘要

DeepSWE是一个新的基准测试，用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现，包含113个任务，涵盖TypeScript、Go、Python、JavaScript和Rust，提供隔离环境和基于程序的验证器。

虽然这篇关于DeepSWE基准测试的GitHub文章主要关注DeepSeek在许多不该失败的地方失败，但它也揭示了该基准测试在实施过程中存在的许多问题。看起来这个基准测试是仓促推出的，在被视为他们所评估模型质量的可靠参考之前，还有很多工作要做。

查看原文

查看缓存全文

缓存时间: 2026/06/03 21:47

datacurve-ai/deep-swe 源：https://github.com/datacurve-ai/deep-swe

DeepSWE（https://deepswe.datacurve.ai/）

DeepSWE 是一个基准测试，用于衡量前沿编码智能体在源自活跃开源仓库的、原始且长周期的软件工程任务上的表现。该基准包含 113 个任务，涵盖 TypeScript、Go、Python、JavaScript 和 Rust，使用隔离环境和基于程序的验证器。

任务格式

DeepSWE 任务采用 Harbor（https://www.harborframework.com/docs/tasks）任务格式：

text task.toml
元数据：仓库、基准提交、语言、预构建镜像、资源限制

instruction.md
智能体看到的提示

environment/
用于复现预构建镜像的 Dockerfile（镜像不可用时回退）

tests/
验证器：test.sh（入口）+ test.patch（测试补充，评分时应用）

solution/
参考解决方案（对智能体隐藏；供人工和 AI 审核者使用）

验证器执行提示中描述的行为。它接受任何可观察行为正确的解决方案，无论其内部符号名称或结构如何。solution/ 中的参考补丁在评分时从不使用；它仅用于审核者离线抽查正确性。

快速开始

使用 Pier（https://github.com/datacurve-ai/pier）运行基准：

git clone https://github.com/datacurve-ai/deep-swe
uv tool install datacurve-pier

# Claude Opus 4.7 via Claude Code
export ANTHROPIC_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model anthropic/claude-opus-4-7

# GPT-5.5 via Codex
export OPENAI_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model openai/gpt-5.5

什么是 Pier

Pier（https://github.com/datacurve-ai/pier）是一个与 Harbor（https://www.harborframework.com/docs/tasks）兼容的框架，用于沙盒化编码智能体评估。它最初是 Harbor 的一个分支，用于在离线任务中支持 CLI 智能体：Harbor 在 allow_internet = false 的任务中会阻止所有出站流量，包括依赖安装和 LLM API 调用。Pier 添加了每个智能体的网络白名单，允许智能体仅访问所需的网络，同时保持任务环境的隔离。

Pier 还增加了更完整的轨迹元数据、更好的轨迹查看器，以及用于分析智能体轨迹的 pier critique run 命令。所有排行榜分数均通过 Pier 在 Modal 上运行 mini-swe-agent 产生。

智能体和模型

mini-swe-agent 与模型无关。Pier 还直接驱动 claude-code、codex、gemini-cli 和 opencode。传递 --env modal 可在 Modal 上的并行沙盒中运行。

子集与单个任务

从 113 个任务中确定性随机抽取子集：

pier run -p deep-swe/tasks --agent mini-swe-agent --n-tasks 10 --sample-seed 0

单个任务：

pier run -p deep-swe/tasks/ --agent mini-swe-agent

有人对新DeepSWE进行了审计，结果不太好看

datacurve-ai/deep-swe 源：https://github.com/datacurve-ai/deep-swe

DeepSWE（https://deepswe.datacurve.ai/）

任务格式

快速开始

什么是 Pier

智能体和模型

子集与单个任务

相似文章

@OpenAI: 我们审计了SWE-Bench Pro，这是最广泛使用的AI编程基准之一，发现它已无法可靠地衡量前沿…

新DeepSWE基准测试发现Claude Opus作弊

@garrytan: 这是工程评估的新标准

@OpenAI: 为了审计SWE-Bench Pro，我们使用了基于模型的调查代理以及来自五位独立专家的独立评审…

DeepSWE基准测试显示，DeepSeek v4 Pro仅通过8%的任务

提交意见反馈