frontiercode

#frontiercode

@devindesktop: 在Devin Desktop和Devin CLI中试用Kimi K3。

X AI KOLs Following ↗ · 22小时前缓存

开源AI模型Kimi K3现已在Devin Desktop和Devin CLI中可用，在FrontierCode 1.1上接近前沿性能。

0 人收藏 0 人点赞

#frontiercode

@dabit3: FrontierCode 是第一个评估衡量真实软件工程中最重要指标的评测：你是否真的会…

X AI KOLs Following ↗ · 2026-06-08 缓存

FrontierCode 是一个新的编程评估基准，用于衡量代码的可合并性，声称比 SWE-Bench Pro 减少 81% 的误分类错误。任务由 Celery、uppy 和 Mattermost 等开源项目的维护者精心设计。

0 人收藏 0 人点赞

#frontiercode

@swyx：终于发布了！！！@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

X AI KOLs Following ↗ · 2026-06-08 缓存

FrontierCode 是 METR 和 Cognition 推出的新编程基准，用于评估 AI 模型在代码可维护性和质量方面的表现，结果显示许多模型会生成无法合并的代码。该基准包含超过 1000 小时的工作量，并表明即使顶尖模型也难以应对，其中 Opus 4.8 在最难的等级上仅获得 13.8%。

0 人收藏 0 人点赞

#frontiercode

@denizbirlikci: 要理解我们为什么构建 FrontierCode，请阅读 @METR_Evals 的博客文章，了解为什么"许多通过 SWE-bench 的 PR 不会被合并到主分支……"

X AI KOLs Following ↗ · 2026-06-08 缓存

Cognition 宣布推出 FrontierCode，这是一个新的代码评估基准，超越了单元测试，衡量代码质量、范围、测试正确性和人类审查者认可度，解决了代理编写通过测试但不可维护的草率代码的问题。

0 人收藏 0 人点赞

#frontiercode

@scaling01: Opus 4.8 是目前最好的编程模型。Cognition 的 FrontierCode 可能是最高质量的编程基准测试……

X AI KOLs Timeline ↗ · 2026-06-08 缓存

Cognition 推出了 FrontierCode，这是一个高质量的编程基准测试，超越了单纯的单元测试，用于衡量代码的可维护性、回归安全性和质量，由 20 多位开源开发者精心设计了 150 个任务。

0 人收藏 0 人点赞

#frontiercode

@SanthProject: 现在这个基准测试我支持，而不是那个被操纵得很离谱的DeepSwe基准测试

X AI KOLs Following ↗ · 2026-06-08 缓存

SanthProject赞扬了Cognition的新FrontierCode代码评估基准，称其为DeepSwe基准的公平替代方案。

0 人收藏 0 人点赞

frontiercode

@devindesktop: 在Devin Desktop和Devin CLI中试用Kimi K3。

@dabit3: FrontierCode 是第一个评估衡量真实软件工程中最重要指标的评测：你是否真的会…

@swyx：终于发布了！！！@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

@denizbirlikci: 要理解我们为什么构建 FrontierCode，请阅读 @METR_Evals 的博客文章，了解为什么"许多通过 SWE-bench 的 PR 不会被合并到主分支……"

@scaling01: Opus 4.8 是目前最好的编程模型。Cognition 的 FrontierCode 可能是最高质量的编程基准测试……

@SanthProject: 现在这个基准测试我支持，而不是那个被操纵得很离谱的DeepSwe基准测试

提交意见反馈