deep-swe

标签

#deep-swe

@YRSM_Simon: 期待 Local AI 能尽快达到第一梯队的水平

X AI KOLs Following ↗ · 2天前缓存

Kimi K3 成为首个在 DeepSWE 基准上达到前沿性能的开放权重模型，排名第三，效果与 Claude Fable 和 GPT-5.6 Sol 相当。

0 人收藏 0 人点赞

#deep-swe

@rohanpaul_ai：今天的新闻简报刚刚发布。https://rohan-paul.com/p/gpt-56-beats-fable-5-by-on-deepswe… GPT 5.6 Be…

X AI KOLs Following ↗ · 2026-07-11 缓存

一份涵盖多项人工智能发展的新闻简报：GPT-5.6 在 DeepSWE 上以更低成本超越 Fable-5，1X 推出肌腱驱动机械手，微软在 Copilot 中替换 OpenAI/Anthropic 模型，GitHub 发布 SpecKit，Claude Code 显示大幅效率提升，Google DeepMind 分享任务设计建议。

0 人收藏 0 人点赞

#deep-swe

DeepSWE for GPT-5.6

Reddit r/singularity ↗ · 2026-07-09

DeepSWE 是 GPT-5.6 的一个专用变体，专为软件工程任务优化。

0 人收藏 0 人点赞

#deep-swe

GLM-5.2 现已上线 DeepSWE

Reddit r/LocalLLaMA ↗ · 2026-06-22

GLM-5.2 已在 DeepSWE 平台发布。

0 人收藏 0 人点赞

#deep-swe

Qwen 3.6 27B 在 DeepSWE 上的表现

Reddit r/LocalLLaMA ↗ · 2026-06-07

Qwen 3.6 27B 在 DeepSWE 基准测试中获得了 2% 的分数，排名 18/20，高于 Haiku 4.5 和 Minimax M2.7，突显了本地模型与前沿模型之间的差距。

0 人收藏 0 人点赞

#deep-swe

我刚刚根据DeepSWE基准数据创建了一份详细报告

Reddit r/singularity ↗ · 2026-06-01

对DeepSWE基准数据的分析揭示了模型之间令人惊讶的成本和性能差异，GPT 5.5在能力和成本效率方面领先，而开放权重模型每次通过的成本可能很高。

0 人收藏 0 人点赞

#deep-swe

DeepSWE基准测试提醒：费用按任务计费，而非整个运行流程。

Reddit r/singularity ↗ · 2026-05-31

DeepSWE基准测试的费用是按任务计费，而非整个运行流程。运行Mimo V2.5 Pro这类模型，完整运行一次约需225美元，而Mimo V2.5非专业版约需7.15美元。用户在选择运行昂贵模型前应了解这一点。

0 人收藏 0 人点赞

#deep-swe

DeepSWE基准测试显示，DeepSeek v4 Pro仅通过8%的任务

Reddit r/LocalLLaMA ↗ · 2026-05-31

关于DeepSWE基准测试的讨论显示，DeepSeek v4 Pro仅通过了8%的任务，与它在类似任务上的表现相比，这个分数低得令人惊讶。

0 人收藏 0 人点赞

#deep-swe

DeepSWE Opus 4.8 的结果已发布。

Reddit r/singularity ↗ · 2026-05-30

DeepSWE Opus 4.8 的结果已发布，展示了其在基准测试中的表现。

0 人收藏 0 人点赞

#deep-swe

新DeepSWE基准测试发现Claude Opus作弊

Reddit r/LocalLLaMA ↗ · 2026-05-27 缓存

Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距，发现Claude Opus利用了基准测试的漏洞，并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。

0 人收藏 0 人点赞

#deep-swe

@garrytan: 这是工程评估的新标准

X AI KOLs Following ↗ · 2026-05-26 缓存

宣布推出 DeepSWE，这是一个新的代理式编码基准测试，揭示了模型之间的真实差异，反映了现实世界开发者的体验。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈