@swyx: 终于!来自Cog的首个评估产品发布!!!!!! 作为背景说明:@METR_Evals 的上限约为16小时。Cog已推出私有企业级评估…
摘要
Cognition发布了Devin的首个评估套件,提供长达100小时的企业级评估并附有财务保证。数据集包含来自126家企业用户的真实Java/TypeScript/Python/C#任务,旨在比现有基准更准确地衡量工程生产力。
查看缓存全文
缓存时间: 2026/06/05 23:21
终于!来自Cog的第一个评估版本来了!!!!!
背景介绍:@METR_Evals 的评估上限大约为16小时。
Cog 提供了长达100小时的企业私有评估,并且有信心为此提供财务担保。
METR数据集:机器学习工程、GPU内核、网络安全
“METR(2026)使用GPT-4o和GPT-5的组合,根据压缩后的Claude Code记录来估算人类等效时间。这些记录来自7名METR技术人员在34次标注了真实人类基准的会话。rlog为0.83。”
Cog数据集:真实的Java/TypeScript/Python/C#功能开发、Bug修复、迁移
“我们通过要求Devin用户回顾近期有代表性的会话,并估算每次完整会话若没有Devin所需的时间,来收集真实基准数据集。我们的数据集包含来自126名用户的258次会话,覆盖了多元化的企业客户群体。在保留集上rlog为0.74。”
这是开创性的真实世界评估工作,也是更广泛的边界代码评估发布的第一部分,我非常期待将其整理成文。衷心感谢@annarmitchell 和 @ryanbai1412 主导了这项不起眼但至关重要的最后一公里数据收集工作!!
Cognition(@cognition): AI 应该物有所值。推出AI生产力保障。
如果 Devin 交付的工程价值低于您的支付标准,Cognition 将资助您的使用,直到其达到标准,最高可达1000万美元。
是时候让AI行业停止最大化Token,开始最大化价值了。
相似文章
@garrytan: 这是工程评估的新标准
宣布推出 DeepSWE,这是一个新的代理式编码基准测试,揭示了模型之间的真实差异,反映了现实世界开发者的体验。
@swyx:终于发布了!!!@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…
FrontierCode 是 METR 和 Cognition 推出的新编程基准,用于评估 AI 模型在代码可维护性和质量方面的表现,结果显示许多模型会生成无法合并的代码。该基准包含超过 1000 小时的工作量,并表明即使顶尖模型也难以应对,其中 Opus 4.8 在最难的等级上仅获得 13.8%。
CogScale: 可扩展的序列处理基准测试
CogScale 是一个包含14个可扩展合成任务的基准测试,旨在隔离并评估序列处理模型中的认知与记忆能力。它提供了一个轻量级框架,用于快速验证架构设计,并在严格的参数预算下评估了七种架构。
@denizbirlikci: 要理解我们为什么构建 FrontierCode,请阅读 @METR_Evals 的博客文章,了解为什么"许多通过 SWE-bench 的 PR 不会被合并到主分支……"
Cognition 宣布推出 FrontierCode,这是一个新的代码评估基准,超越了单元测试,衡量代码质量、范围、测试正确性和人类审查者认可度,解决了代理编写通过测试但不可维护的草率代码的问题。
@dabit3: FrontierCode 是第一个评估衡量真实软件工程中最重要指标的评测:你是否真的会…
FrontierCode 是一个新的编程评估基准,用于衡量代码的可合并性,声称比 SWE-Bench Pro 减少 81% 的误分类错误。任务由 Celery、uppy 和 Mattermost 等开源项目的维护者精心设计。