1000万美元的赌注:我们如何衡量Devin的工程产出(1分钟阅读)
摘要
Cognition宣布为其AI编码代理Devin提供1000万美元的生产力保证,该保证由一个基于企业数据验证的新测量系统支持,显示工程产出提升4倍。
查看缓存全文
缓存时间: 2026/06/16 00:53
Devin 的工程系统保证产出大于成本,每客户承诺 1000 万美元。该系统的有效性通过独立数据验证。这一大胆声明旨在增强对其工程生产力的信心。
1000 万美元的赌注:我们如何衡量 Devin 的工程产出
我们为每位客户提供高达 1000 万美元的担保,只为一个主张:Devin 提供的工程产出超过你所支付的费用。这是我们为证明这一点而构建的系统,并通过从企业客户工程师处收集的独立数据进行了验证。
首个同类数据集
我们首先从多家企业客户中收集了 126 位用户的 258 个会话数据集。据我们所知,这是首个经人工标注的企业级编码代理轨迹数据集。
筛选出真正的工作
并非每个会话都能产生有效工作,因此我们将数据集筛选为那些确实产出的会话。我们移除了所有 PR 从未合并的会话。对于未产生任何 PR 的会话,我们运行了一个分类器来过滤掉那些未产生有价值结果的会话。
估计代理
接着我们构建了一个估计代理,可将其视为两部分。
上下文:我们向代理提供用户消息、生成的 PR(如有)、完整的代理轨迹以及来自 DeepWiki 的额外代码库上下文。
提示:我们预留了 25 个会话作为开发集。通过手动分类代理在这些会话上的运行,我们在提示中添加了 4 条原则,以提高准确性并倾向于保守估计。完整细节见我们的技术报告。
效果如何?
在我们的保留评估集上,该估计器在对数尺度上达到了 0.74 的相关性,且似乎无偏。单个估计值存在噪声,但由于误差大致无偏,因此在跨多个会话聚合时会相互抵消。
真正驱动信号的是什么?
我们还测试了更简单的预测器,以了解最终代码变更与完整 Devin 会话之间信号的来源:会话中所有 PR 的总代码行变更(增删之和),以及仅基于代理编辑工具调用轨迹的估计器。结论是:信号存在于差异之外。会话中大部分真实努力在于调查、诊断和推理,而最有价值的工作有时根本不产生代码。
结果与担保
根据历史客户数据运行,Devin 提供的工程产出约为您支付的 4 倍,按保守的全球综合工资估算。
现在,我们以此为基础推出 AI 生产力保障。如果 Devin 产生的价值低于您所支付的费用,我们将为您提供资金支持,直至其达到承诺水平,每位客户最高 1000 万美元。
阅读完整方法论、评估及限制:https://cognition.ai/blog/ai-productivity
相似文章
@aakashgupta: Devin 的数据刚刚公布,简直令人震惊。2024 年 9 月 ARR 为 100 万美元,如今的 run rate 已达 4.45 亿美元。使用量…
来自 Cognition 的自主编程智能体 Devin 在短短几个月内 ARR 从 100 万美元飙升至 4.45 亿美元,使用量每八周翻一番,客户涵盖 US Army 和 Goldman Sachs 等大型机构。Cognition 正以 250 亿美元估值进行融资,并于近期收购了 Windsurf;此前 Google 曾支付 24 亿美元授权费以引入 Windsurf 的创始团队。
@dabit3:大型重构是 Devin 实际上非常擅长的领域之一,因为它能够进行长时间会话…
梅赛德斯-奔驰与 Cognition 合作,使用 AI 软件工程工具 Devin,将一个复杂的 8 个月重构任务缩短至仅需 8 天。
@dabit3: Devin 不仅仅是一个编码助手。它是一个覆盖整个 SDLC 的 AI 工程平台:→ 规划 → 构建 → 测试 → 发布 → 监控…
Devin 被定位为一个 AI 工程平台,覆盖整个软件开发生命周期,从规划到文档,并提供集成和功能以增强开发者体验。
@swyx: 终于!来自Cog的首个评估产品发布!!!!!! 作为背景说明:@METR_Evals 的上限约为16小时。Cog已推出私有企业级评估…
Cognition发布了Devin的首个评估套件,提供长达100小时的企业级评估并附有财务保证。数据集包含来自126家企业用户的真实Java/TypeScript/Python/C#任务,旨在比现有基准更准确地衡量工程生产力。
@claudeai: Scott Wu (@ScottWu46) 运营着 @cognition,这是 Devin 背后的团队——一款基于 Claude 构建的 AI 软件工程师。他希望能让…
Cognition 公司 CEO Scott Wu 介绍了 Devin——一款基于 Claude 构建的 AI 软件工程师,旨在为工程团队将软件开发速度提升 10 倍。