@swyx:终于发布了!!!@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…
摘要
FrontierCode 是 METR 和 Cognition 推出的新编程基准,用于评估 AI 模型在代码可维护性和质量方面的表现,结果显示许多模型会生成无法合并的代码。该基准包含超过 1000 小时的工作量,并表明即使顶尖模型也难以应对,其中 Opus 4.8 在最难的等级上仅获得 13.8%。
查看缓存全文
缓存时间: 2026/06/09 08:58
终于发布了!!!@METR_Evals 发现,超过半数的 SWEBench 结果都是无法合并的垃圾代码。FrontierCode 代表了超过 1000 小时、由维护者验证的软件工程工作,而大多数前沿模型目前还无法解决,更不用说高质量地解决了。
Cog 团队让 IOI 金牌得主和顶级代码维护者来审视数据——FrontierCode 包含 3000 多条评分标准,覆盖代码质量以及反作弊奖励黑客行为——这些问题正困扰着其他基准测试。
FC Diamond 难度极高,Opus 4.8 的得分仅为 13.8%。
AI 编程的三个时代 · 基准测试的三个时代
2021 • 自动补全:HumanEval 2023 • 通过测试:SWEBench, TerminalBench 2026 • 可维护代码:FrontierCode
在我看来,最动人的图表是我要求对现存所有旧模型进行一次特殊历史回溯运行时的数据——结果发现,FC 任务中最容易的三分之一(在 FC Extended 中)在 2025 年末迅速且突然地被攻克了——Opus 在 4 个月内从 41% 的通过率几乎翻倍至 74%。
这描述了 2025 年 12 月发生的 “WTF 到底发生了什么” 的氛围转变——从 @dhh 到 @karpathy 的许多人都指出了这一点:差别在于,以前需要 6 次重试才能达到 95% 的成功率,现在只需要 2 次——这使得最终能够迈向智能代理编程的下一个抽象层,例如 @GeoffreyHuntley 的 ralph loops、@bcherny 的 /goals,或者 @steipete 的 “提示你的代理的循环”,而无需过分担心事情会偏离轨道。
我的猜测:随着 AI 从这里加速前进,每个 FrontierCode 等级都将依次饱和,希望大约每年一次。我已经要求团队准备 FrontierCode 2027……。
旧的山脉将被摧毁。它们的碎石变成表土。从这片表土中,长出下一片模型森林。生命的循环。
之前 @cognition_labs 的讨论
嘿哥们,我只是个写手,不是图表色情片作者 :)
问得好 :)
所有组合都运行过,但这次发布的目的是衡量模型,而不是框架。我的图表将所有模型都放在 minisweagent 上
我在 FC 团队里
是的,我有。那里的数据稍微乱一些。我不认为我现在被允许分享那些,但很快所有内容都会开源。
在此期间,这份是公开的
相似文章
FrontierCode
FrontierCode是Cognition AI推出的新基准测试,通过评估合并性(mergeability)来衡量AI模型编写高质量、可维护代码的能力。结果显示,即使是Claude Opus 4.8等顶级模型,在最难子集上的得分也仅为13.4%,这突显了代码质量方面存在的显著差距。
@dabit3: FrontierCode 是第一个评估衡量真实软件工程中最重要指标的评测:你是否真的会…
FrontierCode 是一个新的编程评估基准,用于衡量代码的可合并性,声称比 SWE-Bench Pro 减少 81% 的误分类错误。任务由 Celery、uppy 和 Mattermost 等开源项目的维护者精心设计。
@denizbirlikci: 要理解我们为什么构建 FrontierCode,请阅读 @METR_Evals 的博客文章,了解为什么"许多通过 SWE-bench 的 PR 不会被合并到主分支……"
Cognition 宣布推出 FrontierCode,这是一个新的代码评估基准,超越了单元测试,衡量代码质量、范围、测试正确性和人类审查者认可度,解决了代理编写通过测试但不可维护的草率代码的问题。
@scaling01: Opus 4.8 是目前最好的编程模型。Cognition 的 FrontierCode 可能是最高质量的编程基准测试……
Cognition 推出了 FrontierCode,这是一个高质量的编程基准测试,超越了单纯的单元测试,用于衡量代码的可维护性、回归安全性和质量,由 20 多位开源开发者精心设计了 150 个任务。
@Murderlon: FrontierCode终于发布,一个面向真实世界的编码智能体基准测试。通过广泛的强化流程进行人工验证……
FrontierCode是一个面向编码智能体的全新基准测试,通过人工验证并采用持续评分模型,旨在评估真实世界的性能。