coding-eval

#coding-eval

@dabit3: FrontierCode 是第一个评估衡量真实软件工程中最重要指标的评测：你是否真的会…

X AI KOLs Following ↗ · 昨天缓存

FrontierCode 是一个新的编程评估基准，用于衡量代码的可合并性，声称比 SWE-Bench Pro 减少 81% 的误分类错误。任务由 Celery、uppy 和 Mattermost 等开源项目的维护者精心设计。

0 人收藏 0 人点赞

#coding-eval

Reddit r/singularity ↗ · 昨天

FrontierCode 是一个新的编码评估基准，旨在提高 AI 代码生成的难度和质量标准。

0 人收藏 0 人点赞

#coding-eval

X AI KOLs Following ↗ · 昨天缓存

Cognition 宣布推出 FrontierCode，这是一个新的代码评估基准，超越了单元测试，衡量代码质量、范围、测试正确性和人类审查者认可度，解决了代理编写通过测试但不可维护的草率代码的问题。

0 人收藏 0 人点赞

#coding-eval

X AI KOLs Following ↗ · 昨天缓存

SanthProject赞扬了Cognition的新FrontierCode代码评估基准，称其为DeepSwe基准的公平替代方案。

0 人收藏 0 人点赞