@Murderlon: FrontierCode终于发布,一个面向真实世界的编码智能体基准测试。通过广泛的强化流程进行人工验证……
摘要
FrontierCode是一个面向编码智能体的全新基准测试,通过人工验证并采用持续评分模型,旨在评估真实世界的性能。
查看缓存全文
缓存时间: 2026/06/09 14:53
FrontierCode 终于发布了,这是一个面向真实世界的编码智能体基准。经过广泛的人工验证与加固流程,并采用全新的持续评分模型。
近一年来,这项工作一直是我日常的核心内容。
以下就是该基准与其他基准的不同之处 https://t.co/5KG31KGLXi
相似文章
FrontierCode
FrontierCode是Cognition AI推出的新基准测试,通过评估合并性(mergeability)来衡量AI模型编写高质量、可维护代码的能力。结果显示,即使是Claude Opus 4.8等顶级模型,在最难子集上的得分也仅为13.4%,这突显了代码质量方面存在的显著差距。
FrontierCode: 一项提高难度和质量标准的编码评估。
FrontierCode 是一个新的编码评估基准,旨在提高 AI 代码生成的难度和质量标准。
@denizbirlikci: 要理解我们为什么构建 FrontierCode,请阅读 @METR_Evals 的博客文章,了解为什么"许多通过 SWE-bench 的 PR 不会被合并到主分支……"
Cognition 宣布推出 FrontierCode,这是一个新的代码评估基准,超越了单元测试,衡量代码质量、范围、测试正确性和人类审查者认可度,解决了代理编写通过测试但不可维护的草率代码的问题。
@dabit3: FrontierCode 是第一个评估衡量真实软件工程中最重要指标的评测:你是否真的会…
FrontierCode 是一个新的编程评估基准,用于衡量代码的可合并性,声称比 SWE-Bench Pro 减少 81% 的误分类错误。任务由 Celery、uppy 和 Mattermost 等开源项目的维护者精心设计。
@scaling01: Opus 4.8 是目前最好的编程模型。Cognition 的 FrontierCode 可能是最高质量的编程基准测试……
Cognition 推出了 FrontierCode,这是一个高质量的编程基准测试,超越了单纯的单元测试,用于衡量代码的可维护性、回归安全性和质量,由 20 多位开源开发者精心设计了 150 个任务。