@garrytan: 这是工程评估的新标准
摘要
宣布推出 DeepSWE,这是一个新的代理式编码基准测试,揭示了模型之间的真实差异,反映了现实世界开发者的体验。
查看缓存全文
缓存时间: 2026/05/26 22:58
这是工程评估的新标准 https://t.co/UkEwUWybab
Serena Ge (Datacurve) (@serenaa_ge): 今天我们发布了 DeepSWE,一个用于智能编程基准测试的新标准。
在公共排行榜上,顶级模型的能力看起来往往相差不大。DeepSWE 展示了它们实际上的差异所在,反映了开发者日常工作中的真实体验。
相似文章
有人对新DeepSWE进行了审计,结果不太好看
DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。
@garrytan: https://x.com/garrytan/status/2054064931515855118
Garry Tan 认为,Claude Code 和 Codex 等 AI 编程代理通过使高测试覆盖率变得经济可行,改变了软件工程领域。这创造了一种“复杂性棘轮效应”,确保代码质量在牺牲速度的前提下随时间推移而不断提升。
@garrytan: 我的代理式编程简单秘诀 https://forbes.com/sites/josipamajic/2026/04/12/the-yc-chief-who-codes-10000-lines-a…
Y Combinator 的 Garry Tan 分享了他的"薄框架,厚技能"代理式编程框架,而 Claude Code 源代码的意外泄露揭示了 AI 编程智能体背后的复杂架构。
@garrytan: https://x.com/garrytan/status/2061454423034110372
Garry Tan 认为,开发者在用AI智能体时过度工程化,编写了过多代码;相反,他们应该信任模型,构建基于指令的极简软件,他的开源项目GStack就是例证。
@garrytan: 我的最新gbrain-evals刚刚发布 - 这是gbrain与其他选项的比较。http://ZeroEntropy.dev 在重新排名方面是SOTA…
Garry Tan发布了新的gbrain-evals基准测试,显示ZeroEntropy.dev在重新排名和嵌入成本、速度及检索成功率方面达到SOTA,击败了MemPalace和Vector RAG。