@swyx：终于发布了！！！@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

X AI KOLs Following 2026/06/08 20:27 工具

coding-benchmark ai-evaluation frontiercode swebench code-quality metr cognition

摘要

FrontierCode 是 METR 和 Cognition 推出的新编程基准，用于评估 AI 模型在代码可维护性和质量方面的表现，结果显示许多模型会生成无法合并的代码。该基准包含超过 1000 小时的工作量，并表明即使顶尖模型也难以应对，其中 Opus 4.8 在最难的等级上仅获得 13.8%。

终于发布了！！！@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表了超过 1000 小时由维护者验证的软件工程工作，大多数前沿模型还无法解决，更不用说高质量解决了。 Cog 邀请了 IOI 金牌得主和顶级代码维护者来审视数据——FrontierCode 包含 3000 多条评分标准，涵盖代码质量和困扰其他基准的作弊奖励攻击问题。 FC Diamond（钻石级）难度极高，Opus 4.8 仅得分 13.8%。 AI 编程的三个时代：基准测试的三个时代 2021 • 自动补全：HumanEval 2023 • 通过测试：SWEBench, TerminalBench 2026 • 可维护代码：FrontierCode 在我看来，最漂亮的图表是当我要求对所有现存旧模型进行一次特殊的历史性运行，数据发现 FC 中最简单的三分之一任务（在 FC Extended 中）在 2025 年底被迅速而突然地解决——Opus 在 4 个月内从 41% 的通过率几乎翻倍到 74%。这描述了从 @dhh 到 @karpathy 等许多人指出的“2025 年 12 月到底发生了什么”的氛围转变：这是通过 2 次重试获得 95% 成功率与 6 次重试之间的差距，使得在智能体编码中迈向更高抽象层次成为可能，例如 @GeoffreyHuntley 的 ralph loops、@bcherny 的 /goals 或 @steipete 的“提示你的智能体的循环”，而无需过于担心事情会失控。我的猜测：随着 AI 从这里加速，每个 FrontierCode 等级将依次饱和，希望大约每年一次。我已经要求团队准备 FrontierCode 2027…… 旧的山峰将被摧毁。它们的碎石变成风化层。而从这风化层中，下一代模型森林茁壮成长。生命的循环。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:58

终于发布了！！！@METR_Evals 发现，超过半数的 SWEBench 结果都是无法合并的垃圾代码。FrontierCode 代表了超过 1000 小时、由维护者验证的软件工程工作，而大多数前沿模型目前还无法解决，更不用说高质量地解决了。

Cog 团队让 IOI 金牌得主和顶级代码维护者来审视数据——FrontierCode 包含 3000 多条评分标准，覆盖代码质量以及反作弊奖励黑客行为——这些问题正困扰着其他基准测试。

FC Diamond 难度极高，Opus 4.8 的得分仅为 13.8%。

AI 编程的三个时代 · 基准测试的三个时代

2021 • 自动补全：HumanEval 2023 • 通过测试：SWEBench, TerminalBench 2026 • 可维护代码：FrontierCode

在我看来，最动人的图表是我要求对现存所有旧模型进行一次特殊历史回溯运行时的数据——结果发现，FC 任务中最容易的三分之一（在 FC Extended 中）在 2025 年末迅速且突然地被攻克了——Opus 在 4 个月内从 41% 的通过率几乎翻倍至 74%。

这描述了 2025 年 12 月发生的 “WTF 到底发生了什么” 的氛围转变——从 @dhh 到 @karpathy 的许多人都指出了这一点：差别在于，以前需要 6 次重试才能达到 95% 的成功率，现在只需要 2 次——这使得最终能够迈向智能代理编程的下一个抽象层，例如 @GeoffreyHuntley 的 ralph loops、@bcherny 的 /goals，或者 @steipete 的 “提示你的代理的循环”，而无需过分担心事情会偏离轨道。

我的猜测：随着 AI 从这里加速前进，每个 FrontierCode 等级都将依次饱和，希望大约每年一次。我已经要求团队准备 FrontierCode 2027……。

旧的山脉将被摧毁。它们的碎石变成表土。从这片表土中，长出下一片模型森林。生命的循环。

之前 @cognition_labs 的讨论

嘿哥们，我只是个写手，不是图表色情片作者 :)

问得好 :)

所有组合都运行过，但这次发布的目的是衡量模型，而不是框架。我的图表将所有模型都放在 minisweagent 上

我在 FC 团队里

是的，我有。那里的数据稍微乱一些。我不认为我现在被允许分享那些，但很快所有内容都会开源。

在此期间，这份是公开的

@swyx：终于发布了！！！@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

相似文章

FrontierCode

@dabit3: FrontierCode 是第一个评估衡量真实软件工程中最重要指标的评测：你是否真的会…

@denizbirlikci: 要理解我们为什么构建 FrontierCode，请阅读 @METR_Evals 的博客文章，了解为什么"许多通过 SWE-bench 的 PR 不会被合并到主分支……"

@scaling01: Opus 4.8 是目前最好的编程模型。Cognition 的 FrontierCode 可能是最高质量的编程基准测试……

@KyleHessling1: Qwopus Coder 在这里领跑！就连我旧的18B frankenmerge 在这个评测中也稳居第四，超越了许多更新更大的模型……

提交意见反馈