1000万美元的赌注:我们如何衡量Devin的工程产出(1分钟阅读)

TLDR AI 产品

摘要

Cognition宣布为其AI编码代理Devin提供1000万美元的生产力保证,该保证由一个基于企业数据验证的新测量系统支持,显示工程产出提升4倍。

Devin的工程系统保证产出超过成本,每个客户承诺1000万美元。该系统的有效性通过独立数据验证。这一大胆声明旨在增强对其工程生产力的信心。
查看原文
查看缓存全文

缓存时间: 2026/06/16 00:53

Devin 的工程系统保证产出大于成本,每客户承诺 1000 万美元。该系统的有效性通过独立数据验证。这一大胆声明旨在增强对其工程生产力的信心。


1000 万美元的赌注:我们如何衡量 Devin 的工程产出

我们为每位客户提供高达 1000 万美元的担保,只为一个主张:Devin 提供的工程产出超过你所支付的费用。这是我们为证明这一点而构建的系统,并通过从企业客户工程师处收集的独立数据进行了验证。

首个同类数据集

我们首先从多家企业客户中收集了 126 位用户的 258 个会话数据集。据我们所知,这是首个经人工标注的企业级编码代理轨迹数据集。

筛选出真正的工作

并非每个会话都能产生有效工作,因此我们将数据集筛选为那些确实产出的会话。我们移除了所有 PR 从未合并的会话。对于未产生任何 PR 的会话,我们运行了一个分类器来过滤掉那些未产生有价值结果的会话。

估计代理

接着我们构建了一个估计代理,可将其视为两部分。

上下文:我们向代理提供用户消息、生成的 PR(如有)、完整的代理轨迹以及来自 DeepWiki 的额外代码库上下文。

提示:我们预留了 25 个会话作为开发集。通过手动分类代理在这些会话上的运行,我们在提示中添加了 4 条原则,以提高准确性并倾向于保守估计。完整细节见我们的技术报告。

效果如何?

在我们的保留评估集上,该估计器在对数尺度上达到了 0.74 的相关性,且似乎无偏。单个估计值存在噪声,但由于误差大致无偏,因此在跨多个会话聚合时会相互抵消。

真正驱动信号的是什么?

我们还测试了更简单的预测器,以了解最终代码变更与完整 Devin 会话之间信号的来源:会话中所有 PR 的总代码行变更(增删之和),以及仅基于代理编辑工具调用轨迹的估计器。结论是:信号存在于差异之外。会话中大部分真实努力在于调查、诊断和推理,而最有价值的工作有时根本不产生代码。

结果与担保

根据历史客户数据运行,Devin 提供的工程产出约为您支付的 4 倍,按保守的全球综合工资估算。

现在,我们以此为基础推出 AI 生产力保障。如果 Devin 产生的价值低于您所支付的费用,我们将为您提供资金支持,直至其达到承诺水平,每位客户最高 1000 万美元。

阅读完整方法论、评估及限制:https://cognition.ai/blog/ai-productivity

相似文章

@aakashgupta: Devin 的数据刚刚公布,简直令人震惊。2024 年 9 月 ARR 为 100 万美元,如今的 run rate 已达 4.45 亿美元。使用量…

X AI KOLs Following

来自 Cognition 的自主编程智能体 Devin 在短短几个月内 ARR 从 100 万美元飙升至 4.45 亿美元,使用量每八周翻一番,客户涵盖 US Army 和 Goldman Sachs 等大型机构。Cognition 正以 250 亿美元估值进行融资,并于近期收购了 Windsurf;此前 Google 曾支付 24 亿美元授权费以引入 Windsurf 的创始团队。