@swyx: 终于！来自Cog的首个评估产品发布！！！！！！作为背景说明：@METR_Evals 的上限约为16小时。Cog已推出私有企业级评估…

X AI KOLs Following 2026/06/04 19:03 产品

evals devin enterprise productivity-guarantee cognition code-ai real-world-evals

摘要

Cognition发布了Devin的首个评估套件，提供长达100小时的企业级评估并附有财务保证。数据集包含来自126家企业用户的真实Java/TypeScript/Python/C#任务，旨在比现有基准更准确地衡量工程生产力。

终于！来自Cog的首个评估产品发布！！！！！！作为背景说明：@METR_Evals 的上限约为16小时。 Cog提供长达100小时的私有企业级评估，并且有信心为此提供财务保证。 METR数据集：机器学习工程、GPU内核、网络安全 > “METR (2026) 结合使用 GPT-4o 和 GPT-5，从压缩的 Claude Code 转录中估算人类等效时间。这些转录来自7位METR技术人员在34个会话中标注的人类真实数据。” rlog 为0.83 Cog数据集：真实世界的Java/TypeScript/Python/C#功能开发、错误修复和迁移 > “我们收集了一个真实数据集，要求Devin用户审查近期具有代表性的会话，并估计每个完成的会话在没有Devin的情况下需要多长时间。我们的数据集包含来自126位企业客户的258个会话。” 在保留集上rlog为0.74 这是具有开拓性的现实世界评估工作，也是更广泛的前沿代码评估发布的第一部分，我非常期待撰写相关文章。衷心感谢 @annarmitchell 和 @ryanbai1412 领导了这项默默无闻的最后数据收集工作！！

查看原文

查看缓存全文

缓存时间: 2026/06/05 23:21

终于！来自Cog的第一个评估版本来了！！！！！

背景介绍：@METR_Evals 的评估上限大约为16小时。

Cog 提供了长达100小时的企业私有评估，并且有信心为此提供财务担保。

METR数据集：机器学习工程、GPU内核、网络安全

“METR（2026）使用GPT-4o和GPT-5的组合，根据压缩后的Claude Code记录来估算人类等效时间。这些记录来自7名METR技术人员在34次标注了真实人类基准的会话。rlog为0.83。”

Cog数据集：真实的Java/TypeScript/Python/C#功能开发、Bug修复、迁移

“我们通过要求Devin用户回顾近期有代表性的会话，并估算每次完整会话若没有Devin所需的时间，来收集真实基准数据集。我们的数据集包含来自126名用户的258次会话，覆盖了多元化的企业客户群体。在保留集上rlog为0.74。”

这是开创性的真实世界评估工作，也是更广泛的边界代码评估发布的第一部分，我非常期待将其整理成文。衷心感谢@annarmitchell 和 @ryanbai1412 主导了这项不起眼但至关重要的最后一公里数据收集工作！！

Cognition（@cognition）： AI 应该物有所值。推出AI生产力保障。

如果 Devin 交付的工程价值低于您的支付标准，Cognition 将资助您的使用，直到其达到标准，最高可达1000万美元。

是时候让AI行业停止最大化Token，开始最大化价值了。

@swyx: 终于！来自Cog的首个评估产品发布！！！！！！作为背景说明：@METR_Evals 的上限约为16小时。Cog已推出私有企业级评估…

相似文章

@garrytan: 这是工程评估的新标准

@swyx：终于发布了！！！@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

CogScale: 可扩展的序列处理基准测试

@denizbirlikci: 要理解我们为什么构建 FrontierCode，请阅读 @METR_Evals 的博客文章，了解为什么"许多通过 SWE-bench 的 PR 不会被合并到主分支……"

@dabit3: FrontierCode 是第一个评估衡量真实软件工程中最重要指标的评测：你是否真的会…

提交意见反馈