@scaling01: Opus 4.8 是目前最好的编程模型。Cognition 的 FrontierCode 可能是最高质量的编程基准测试……

X AI KOLs Timeline 工具

摘要

Cognition 推出了 FrontierCode,这是一个高质量的编程基准测试,超越了单纯的单元测试,用于衡量代码的可维护性、回归安全性和质量,由 20 多位开源开发者精心设计了 150 个任务。

Opus 4.8 是目前最好的编程模型 Cognition 的 FrontierCode 可能是我们迄今为止看到的质量最高的编程基准测试 它不仅超越仅使用单元测试进行评分的方式,还测试回归安全性、代码整洁性、测试正确性、范围及代码质量 20 多位开源开发者手工制作了 150 个任务,每个任务耗时超过 40 小时 它还测试了更多样化的编程语言
查看原文
查看缓存全文

缓存时间: 2026/06/09 10:44

Opus 4.8 是目前最好的编码模型

Cognition 推出的 FrontierCode 可能是我们迄今为止见过的最高质量的编码基准测试

它不仅局限于使用单元测试进行评分,还测试了回归安全性、代码整洁度、测试正确性、作用域和代码质量

20 多位开源开发者手工构建了 150 个任务,每个任务的构建耗时超过 40 小时

它还测试了更多样化的编程语言

Cognition (@cognition): 介绍 FrontierCode:一个提升难度与质量门槛的编码评估。每个任务由领先的开源维护者投入 40 多小时完成。

模型编写的代码虽然能运行,但不可维护。我们的评估率先衡量:你真的会合并这段代码吗?

相似文章

FrontierCode

Hacker News Top

FrontierCode是Cognition AI推出的新基准测试,通过评估合并性(mergeability)来衡量AI模型编写高质量、可维护代码的能力。结果显示,即使是Claude Opus 4.8等顶级模型,在最难子集上的得分也仅为13.4%,这突显了代码质量方面存在的显著差距。