1000万美元的赌注：我们如何衡量Devin的工程产出（1分钟阅读）

TLDR AI 2026/06/15 00:00 产品

devin coding-agent engineering-productivity ai-guarantee productivity-metrics enterprise-ai

摘要

Cognition宣布为其AI编码代理Devin提供1000万美元的生产力保证，该保证由一个基于企业数据验证的新测量系统支持，显示工程产出提升4倍。

Devin的工程系统保证产出超过成本，每个客户承诺1000万美元。该系统的有效性通过独立数据验证。这一大胆声明旨在增强对其工程生产力的信心。

查看原文

查看缓存全文

缓存时间: 2026/06/16 00:53

Devin 的工程系统保证产出大于成本，每客户承诺 1000 万美元。该系统的有效性通过独立数据验证。这一大胆声明旨在增强对其工程生产力的信心。

1000 万美元的赌注：我们如何衡量 Devin 的工程产出

我们为每位客户提供高达 1000 万美元的担保，只为一个主张：Devin 提供的工程产出超过你所支付的费用。这是我们为证明这一点而构建的系统，并通过从企业客户工程师处收集的独立数据进行了验证。

首个同类数据集

我们首先从多家企业客户中收集了 126 位用户的 258 个会话数据集。据我们所知，这是首个经人工标注的企业级编码代理轨迹数据集。

筛选出真正的工作

并非每个会话都能产生有效工作，因此我们将数据集筛选为那些确实产出的会话。我们移除了所有 PR 从未合并的会话。对于未产生任何 PR 的会话，我们运行了一个分类器来过滤掉那些未产生有价值结果的会话。

估计代理

接着我们构建了一个估计代理，可将其视为两部分。

上下文：我们向代理提供用户消息、生成的 PR（如有）、完整的代理轨迹以及来自 DeepWiki 的额外代码库上下文。

提示：我们预留了 25 个会话作为开发集。通过手动分类代理在这些会话上的运行，我们在提示中添加了 4 条原则，以提高准确性并倾向于保守估计。完整细节见我们的技术报告。

效果如何？

在我们的保留评估集上，该估计器在对数尺度上达到了 0.74 的相关性，且似乎无偏。单个估计值存在噪声，但由于误差大致无偏，因此在跨多个会话聚合时会相互抵消。

真正驱动信号的是什么？

我们还测试了更简单的预测器，以了解最终代码变更与完整 Devin 会话之间信号的来源：会话中所有 PR 的总代码行变更（增删之和），以及仅基于代理编辑工具调用轨迹的估计器。结论是：信号存在于差异之外。会话中大部分真实努力在于调查、诊断和推理，而最有价值的工作有时根本不产生代码。

结果与担保

根据历史客户数据运行，Devin 提供的工程产出约为您支付的 4 倍，按保守的全球综合工资估算。

现在，我们以此为基础推出 AI 生产力保障。如果 Devin 产生的价值低于您所支付的费用，我们将为您提供资金支持，直至其达到承诺水平，每位客户最高 1000 万美元。

阅读完整方法论、评估及限制：https://cognition.ai/blog/ai-productivity

相似文章

@aakashgupta: Devin 的数据刚刚公布，简直令人震惊。2024 年 9 月 ARR 为 100 万美元，如今的 run rate 已达 4.45 亿美元。使用量…

X AI KOLs Following

来自 Cognition 的自主编程智能体 Devin 在短短几个月内 ARR 从 100 万美元飙升至 4.45 亿美元，使用量每八周翻一番，客户涵盖 US Army 和 Goldman Sachs 等大型机构。Cognition 正以 250 亿美元估值进行融资，并于近期收购了 Windsurf；此前 Google 曾支付 24 亿美元授权费以引入 Windsurf 的创始团队。

@dabit3：大型重构是 Devin 实际上非常擅长的领域之一，因为它能够进行长时间会话…

X AI KOLs Following

梅赛德斯-奔驰与 Cognition 合作，使用 AI 软件工程工具 Devin，将一个复杂的 8 个月重构任务缩短至仅需 8 天。

@dabit3: Devin 不仅仅是一个编码助手。它是一个覆盖整个 SDLC 的 AI 工程平台：→ 规划 → 构建 → 测试 → 发布 → 监控…

X AI KOLs Following

Devin 被定位为一个 AI 工程平台，覆盖整个软件开发生命周期，从规划到文档，并提供集成和功能以增强开发者体验。

@swyx: 终于！来自Cog的首个评估产品发布！！！！！！作为背景说明：@METR_Evals 的上限约为16小时。Cog已推出私有企业级评估…

X AI KOLs Following

Cognition发布了Devin的首个评估套件，提供长达100小时的企业级评估并附有财务保证。数据集包含来自126家企业用户的真实Java/TypeScript/Python/C#任务，旨在比现有基准更准确地衡量工程生产力。

@claudeai: Scott Wu (@ScottWu46) 运营着 @cognition，这是 Devin 背后的团队——一款基于 Claude 构建的 AI 软件工程师。他希望能让…

X AI KOLs Following

Cognition 公司 CEO Scott Wu 介绍了 Devin——一款基于 Claude 构建的 AI 软件工程师，旨在为工程团队将软件开发速度提升 10 倍。

1000 万美元的赌注：我们如何衡量 Devin 的工程产出

首个同类数据集

筛选出真正的工作

估计代理

效果如何？

真正驱动信号的是什么？

结果与担保

相似文章

@aakashgupta: Devin 的数据刚刚公布，简直令人震惊。2024 年 9 月 ARR 为 100 万美元，如今的 run rate 已达 4.45 亿美元。使用量…

@dabit3：大型重构是 Devin 实际上非常擅长的领域之一，因为它能够进行长时间会话…

@dabit3: Devin 不仅仅是一个编码助手。它是一个覆盖整个 SDLC 的 AI 工程平台：→ 规划 → 构建 → 测试 → 发布 → 监控…

@swyx: 终于！来自Cog的首个评估产品发布！！！！！！ 作为背景说明：@METR_Evals 的上限约为16小时。Cog已推出私有企业级评估…

@claudeai: Scott Wu (@ScottWu46) 运营着 @cognition，这是 Devin 背后的团队——一款基于 Claude 构建的 AI 软件工程师。他希望能让…

提交意见反馈

@swyx: 终于！来自Cog的首个评估产品发布！！！！！！作为背景说明：@METR_Evals 的上限约为16小时。Cog已推出私有企业级评估…