@garrytan: 这是工程评估的新标准

X AI KOLs Following 工具

摘要

宣布推出 DeepSWE,这是一个新的代理式编码基准测试,揭示了模型之间的真实差异,反映了现实世界开发者的体验。

这是工程评估的新标准 https://t.co/UkEwUWybab
查看原文
查看缓存全文

缓存时间: 2026/05/26 22:58

这是工程评估的新标准 https://t.co/UkEwUWybab

Serena Ge (Datacurve) (@serenaa_ge): 今天我们发布了 DeepSWE,一个用于智能编程基准测试的新标准。

在公共排行榜上,顶级模型的能力看起来往往相差不大。DeepSWE 展示了它们实际上的差异所在,反映了开发者日常工作中的真实体验。

相似文章

有人对新DeepSWE进行了审计,结果不太好看

Reddit r/singularity

DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。

@garrytan: https://x.com/garrytan/status/2054064931515855118

X AI KOLs Following

Garry Tan 认为,Claude Code 和 Codex 等 AI 编程代理通过使高测试覆盖率变得经济可行,改变了软件工程领域。这创造了一种“复杂性棘轮效应”,确保代码质量在牺牲速度的前提下随时间推移而不断提升。