@swyx: 终于!来自Cog的首个评估产品发布!!!!!! 作为背景说明:@METR_Evals 的上限约为16小时。Cog已推出私有企业级评估…

X AI KOLs Following 产品

摘要

Cognition发布了Devin的首个评估套件,提供长达100小时的企业级评估并附有财务保证。数据集包含来自126家企业用户的真实Java/TypeScript/Python/C#任务,旨在比现有基准更准确地衡量工程生产力。

终于!来自Cog的首个评估产品发布!!!!!! 作为背景说明:@METR_Evals 的上限约为16小时。 Cog提供长达100小时的私有企业级评估,并且有信心为此提供财务保证。 METR数据集:机器学习工程、GPU内核、网络安全 > “METR (2026) 结合使用 GPT-4o 和 GPT-5,从压缩的 Claude Code 转录中估算人类等效时间。这些转录来自7位METR技术人员在34个会话中标注的人类真实数据。” rlog 为0.83 Cog数据集:真实世界的Java/TypeScript/Python/C#功能开发、错误修复和迁移 > “我们收集了一个真实数据集,要求Devin用户审查近期具有代表性的会话,并估计每个完成的会话在没有Devin的情况下需要多长时间。我们的数据集包含来自126位企业客户的258个会话。” 在保留集上rlog为0.74 这是具有开拓性的现实世界评估工作,也是更广泛的前沿代码评估发布的第一部分,我非常期待撰写相关文章。衷心感谢 @annarmitchell 和 @ryanbai1412 领导了这项默默无闻的最后数据收集工作!!
查看原文
查看缓存全文

缓存时间: 2026/06/05 23:21

终于!来自Cog的第一个评估版本来了!!!!!

背景介绍:@METR_Evals 的评估上限大约为16小时。

Cog 提供了长达100小时的企业私有评估,并且有信心为此提供财务担保。

METR数据集:机器学习工程、GPU内核、网络安全

“METR(2026)使用GPT-4o和GPT-5的组合,根据压缩后的Claude Code记录来估算人类等效时间。这些记录来自7名METR技术人员在34次标注了真实人类基准的会话。rlog为0.83。”

Cog数据集:真实的Java/TypeScript/Python/C#功能开发、Bug修复、迁移

“我们通过要求Devin用户回顾近期有代表性的会话,并估算每次完整会话若没有Devin所需的时间,来收集真实基准数据集。我们的数据集包含来自126名用户的258次会话,覆盖了多元化的企业客户群体。在保留集上rlog为0.74。”

这是开创性的真实世界评估工作,也是更广泛的边界代码评估发布的第一部分,我非常期待将其整理成文。衷心感谢@annarmitchell 和 @ryanbai1412 主导了这项不起眼但至关重要的最后一公里数据收集工作!!

Cognition(@cognition): AI 应该物有所值。推出AI生产力保障。

如果 Devin 交付的工程价值低于您的支付标准,Cognition 将资助您的使用,直到其达到标准,最高可达1000万美元。

是时候让AI行业停止最大化Token,开始最大化价值了。

相似文章

@garrytan: 这是工程评估的新标准

X AI KOLs Following

宣布推出 DeepSWE,这是一个新的代理式编码基准测试,揭示了模型之间的真实差异,反映了现实世界开发者的体验。

CogScale: 可扩展的序列处理基准测试

arXiv cs.AI

CogScale 是一个包含14个可扩展合成任务的基准测试,旨在隔离并评估序列处理模型中的认知与记忆能力。它提供了一个轻量级框架,用于快速验证架构设计,并在严格的参数预算下评估了七种架构。