@scaling01: Opus 4.8 是目前最好的编程模型。Cognition 的 FrontierCode 可能是最高质量的编程基准测试……

X AI KOLs Timeline 2026/06/08 19:48 工具

coding-benchmark frontiercode opus-4.8 ai-coding cognition open-source evaluation

摘要

Cognition 推出了 FrontierCode，这是一个高质量的编程基准测试，超越了单纯的单元测试，用于衡量代码的可维护性、回归安全性和质量，由 20 多位开源开发者精心设计了 150 个任务。

Opus 4.8 是目前最好的编程模型 Cognition 的 FrontierCode 可能是我们迄今为止看到的质量最高的编程基准测试它不仅超越仅使用单元测试进行评分的方式，还测试回归安全性、代码整洁性、测试正确性、范围及代码质量 20 多位开源开发者手工制作了 150 个任务，每个任务耗时超过 40 小时它还测试了更多样化的编程语言

查看原文

查看缓存全文

缓存时间: 2026/06/09 10:44

Opus 4.8 是目前最好的编码模型

Cognition 推出的 FrontierCode 可能是我们迄今为止见过的最高质量的编码基准测试

它不仅局限于使用单元测试进行评分，还测试了回归安全性、代码整洁度、测试正确性、作用域和代码质量

20 多位开源开发者手工构建了 150 个任务，每个任务的构建耗时超过 40 小时

它还测试了更多样化的编程语言

Cognition (@cognition): 介绍 FrontierCode：一个提升难度与质量门槛的编码评估。每个任务由领先的开源维护者投入 40 多小时完成。

模型编写的代码虽然能运行，但不可维护。我们的评估率先衡量：你真的会合并这段代码吗？

@scaling01: Opus 4.8 是目前最好的编程模型。Cognition 的 FrontierCode 可能是最高质量的编程基准测试……

相似文章

FrontierCode

@denizbirlikci: 要理解我们为什么构建 FrontierCode，请阅读 @METR_Evals 的博客文章，了解为什么"许多通过 SWE-bench 的 PR 不会被合并到主分支……"

@swyx：终于发布了！！！@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

@cognition：我们对 FrontierCode 方法进行了改进，并发布了 FrontierCode 1.1，其中包含了更清晰的……

@dabit3: FrontierCode 是第一个评估衡量真实软件工程中最重要指标的评测：你是否真的会…

提交意见反馈