AI生产力的诚实数学

Reddit r/ArtificialInteligence 新闻

摘要

一项对夸大AI生产力主张的批判性分析,引用了严谨的研究表明,与供应商经常声称的5-10倍相比,实际收益只有15-40%,并警告不要盲目接受这种炒作。

每个人(嗯,主要是那些销售某种服务的人)总是大谈特谈10倍的巨大收益。​但真正的研究显示的数据完全不同。​你必须衡量的是,你从系统中获得了多少价值,而不是你支付了多少账单……
查看原文
查看缓存全文

缓存时间: 2026/06/16 17:37

# AI 生产力的诚实数学 来源: https://eigenwise.io/writing/the-honest-math-of-ai-productivity AI 生产力的诚实数学 在一次最近的工作活动上,我看到两位来自一家 AI 咨询公司的演讲者对满屋子高管反复强调**要争取 5 到 10 倍的生产力提升**。紧接着他们飞快地补充说,如果人们不愿意或无法完全接受成为“AI 原住民”并达到那些新的生产力高度,那么也许他们就不再属于你的员工队伍了,就像秘书不会用 *Excel* 一样。 我靠 AI 谋生。我构建智能体框架,每天都用 *Claude Code*、*Claude Cowork*,我设置自定义工作区、自定义插件、连接服务……我对这些东西了如指掌。我自己与 AI 合作获得的收益是巨大的。我几乎是最支持 AI 的人了。**但是** **5-10 倍的说法是一大罐** **蛇油**。贩卖它的人要么**完全不了解**证据实际表明了什么(考虑到他们在演示中引用了其他所有大家反复引用的熟悉统计数字,我怀疑他们不了解),要么**指望着房间里的人不去核实**。 那么,我们来核实一下。 ## 真实数字 真实数字 当你去寻找严谨的研究时(随机试验、同行评审的实地实验、政府数据),这些收益是真实存在的,但处于**个位数到低两位数**的范围内,而不是倍数。 客户支持是最清晰的案例。斯坦福和麻省理工对超过 5000 名客服人员进行的实地研究发现,AI 平均将生产力提高了大约 15% (https://academic.oup.com/qje/article/140/2/889/7990658),并且**对经验最少的客服人员效果大约翻倍**,而对经验最丰富的人几乎没有影响。专业写作:麻省理工发表在 *Science* 上的一项随机试验将任务时间缩短了约 40%,并将质量提高了 18% (https://www.science.org/doi/10.1126/science.adh2586)。管理咨询:一项针对 758 名 BCG 顾问的预注册试验发现,在 AI 的“锯齿形前沿” (https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321) 内的合适任务上,效率提高了 25%,这是真实的收益。但在一个恰好位于该前沿之外的任务上,使用 AI 的顾问**出错的可能性高出 19 个百分点**。 注意天花板。严肃文献中最好的部门级结果大约是**在实验室中,针对一个狭窄的写作任务,提升约 +40%**。不是 400%。不是 1000%。 放大范围看,**它会缩小**。迄今为止最严谨的元分析 (https://arxiv.org/abs/2605.04779) 将生产力效应汇总为适度的 0.33 个标准差,并发现它会根据环境而崩溃:在实验室中尚可,在真实企业中弱得多,在开源工作中几乎为零。在整个经济层面,麻省理工的 Daron Acemoglu 估计,AI 将在十年内为全要素生产率增加约 0.7% (https://www.nber.org/papers/w32487)。**最乐观的可靠数字,来自圣路易斯联储 (https://www.stlouisfed.org/on-the-economy/2025/feb/impact-generative-ai-work-productivity), 大约是 1.1%**,而且这个数字是基于员工自我报告他们认为自己节省了多少时间。 截至 2026 年中,没有任何可靠的研究(没有随机试验,没有同行评审的实地实验,没有经过审计的结果)显示任何部门实现了持续的 5-10 倍增长。每次你看到这个数字,追溯它的来源。它总会归结为一个供应商基准测试、一个演示,或者一个精心挑选的单一任务。 ## 为什么演示看起来像 10 倍 **著名的“编码速度提升 55%”这个数字值得理解**,因为它展示了这个把戏是如何运作的。在 GitHub 自己的研究 (https://arxiv.org/abs/2302.06590) 中,获得 *Copilot* 的开发人员完成一个任务大约快了 56%。这个任务是从头开始用 JavaScript 编写一个 HTTP 服务器:**一个独立的、从未有过的问题**,这类问题在训练数据中有成千上万个已知解决方案。 现在,把同样的工具放到一个真实、**成熟的代码库**中。METR 进行了一项随机试验,让经验丰富的开发人员在他们自己的大型开源项目上工作,结果是每个高管都应该听到的:使用 AI 后他们**慢了 19%** (https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/)。**他们之前预测会提速 24%**。即使最终速度更慢,他们仍然相信 AI 让他们提速了 20%。**他们的感受与实际结果之间存在 39 个百分点的差距**。 **这个差距就是整个骗局**。绿地项目**大部分是样板代码**(认证、支付、CRUD,每个人都写的相同 API 骨架),而 **AI 在这方面确实非常快**。一个五年的产品才是困难的情况:一个新功能会触及数千行代码,并且依赖于没有文档记录的上下文,当相关细节位于长上下文的深处时,模型**可靠地丢失线索** (https://arxiv.org/abs/2307.03172)。因此,当有人将绿地演示推广为“整个业务提升 5 倍”时,他们是在用容易的 10% 的工作来定价,仿佛那是困难的 90%。 即使是绿地情况也带有代价。AI 错误不会平均化,它们会**累积**:在一项研究中,近 20% 的生成代码样本导入了一个不存在的包 (https://arxiv.org/abs/2406.10279),并且同样的捏造名称在重复运行中再次出现。另一项斯坦福试验发现,使用 AI 助手的开发人员编写了更不安全的代码,同时却更加确信代码是安全的 (https://arxiv.org/abs/2211.03622)。你生成得越快,你交付未审查的代码就越多,你花在审查和清理上的时间就越多。 这就是为什么那些咨询机构的推销如此危险。那些演讲者是在向为客户构建全新定制项目的公司推销,所以每个项目看起来都像绿地项目,每个演示看起来都像 5 倍。速度在开始时被捕获了。维护账单则转嫁给了客户,他们继承了一个快速构建但没人完全理解的代码库。 ## 衡量两面 衡量两面 更深层次的问题是,房间里几乎没有人能告诉你他们得到了 5 倍、1.5 倍还是一无所获,因为他们只看到了交易的一方。 诚实的指标是一个比较:你**衡量的绩效提升与你衡量的成本增加**,两者都随时间跟踪。当 AI 增加的价值明显超过它增加的账单时,AI 才是值得的,而**除非你衡量了这两半**,否则你无法知道这一点。如果你获得了 25% 的价值,但花了 50% 的成本去获得它,那这是一笔糟糕的交易,**除非你跟踪了两者,否则你不会注意到这一点**。 实际被衡量的是 tokens。社区开始称之为 ***tokenmaxxing***:在 AI 上花费越来越多,却没有可衡量的价值增长。相反,我们通过花费的 tokens 来衡量我们的“生产力”。在我看来,这是个愚蠢的概念。这种情况发生在“本季度我们使用了 X 十亿 tokens”出现在幻灯片上作为进展证据的那一刻。Tokens 是成本方面,却被当作价值方面来解读。截至 2026 年中,每个席位的 AI 支出可能达到薪水的相当大一部分,在某些情况下甚至是几倍,因此成本方面**不再是你能够忽略的舍入误差**。 衡量价值方面是主题演讲跳过的那部分,而且这很**困难**。研究直言不讳地说没有一个单一的数字可以衡量它:来自撰写**工程生产力著作**的人们的 SPACE 框架 (https://queue.acm.org/detail.cfm?id=3454124) 直接这么说,而 METR 的感知差距说明了为什么你不能相信直觉检查,因为人们感觉快了数倍,但可衡量的并非如此。所以你在两方面都要做缓慢的部分。选择几个与价值相关的结果(周期时间、缺陷率、交付时间),在采用任何工具之前记录你的基线,并在旁边跟踪支出。 跳过这一步,**成本方面会以一种大多数公司意想不到的方式反噬**。推销是 AI 既快**又**便宜,所以你可以更精简地运营。便宜的那一半是不牢靠的:在一些公司,每席位支出已经超过了其取代或悄悄停止填补的角色的成本。一个为了资助 AI 而裁员并现在依赖它的团队,已经用一条随着使用量攀升的可变账单替换了一条固定、可预测的工资线。如果你从未将成本方面与价值方面进行比较,你只会在你被承诺的效率变成**脆弱性**时才发现。 ## 成本落在员工和公司身上 **追求一个不可能的数字会造成真正的伤害**,而且不仅仅是针对追求它的人。 从员工开始。早期证据表明,AI 往往会让知识工作者工作得**更多**,而不是更少。一项对年轻专业人士的同行评审研究 (https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1728881/full) 用他们自己的话捕捉到了这一机制:更快地完成工作只会让你得到更多的任务,而质量仍然必须保持。AI 节省的时间被重新吸收为更高的预期产出基线,早期的兴奋变成了难以持续的东西。 现在看公司。几十年的管理研究预测了一个不可能的目标对组织本身会造成什么影响,任何人精疲力竭之前也是如此。一旦一个数字成为目标,**人们就会优化数字而不是目标**。经典的评论 *Goals Gone Wild* (https://www.hbs.edu/ris/Publication%20Files/09-083.pdf) 记录了其余部分:隧道视野导致所有未衡量的部分被饿死、扭曲的风险承担、不道德行为的可衡量上升,以及最优秀的人首先离开,因为**他们能看出目标是假的**。剩下的是**表演**。仪表盘为管理层表演,而真实价值停滞不前。 这让我回到了那个让我困扰的说法。当一个推销将夸大的目标与忠诚度测试配对时,“如果他们不能跟上,也许他们就不属于这里”,这就是破绽。它将一个你可以测试的问题(“这个工具真的能在我们的工作中实现那个效果吗?”)转变为一个关于品格的问题,这样数字就永远无法被质疑,因为质疑它现在被解读为不忠诚。*Excel* 的类比完成了其余工作,借用了那个已被证明有效的工具的确定性来为一个尚未在我们拥有的证据上达到那种规模的工具背书。 ## 诚实的版本是什么样的 诚实的版本是什么样的 这些都不意味着 AI 没有帮助。我自己的收益是巨大的,我也不想假装不是这样。但它们是**挣来的,而不是在安装时交给你的**。它们来自于主题演讲从未提及的不起眼的工作:构建一个智能体能够导航的代码库,构建它所需的上下文和护栏,以及为每个项目调整设置,因为没有一种配置适用于所有地方。这个工具放大了你为使其有用而付出的努力。 这就是更聪明的推销所在之处。当然,这些收益需要正确的设置,而正确的设置正是我在卖的,所以买我的产品,5-10 倍就会出现。这是一个狡猾的说法,因为它把每一次失望都变成了你需要更多产品的证据。你只得到了 30%?**你还没有正确的设置。** 用与此处所有其他内容相同的标准来衡量它:**去测量它**。一个真正能带来 5-10 倍回报的设置是世界上最容易证明的事情。为你的结果建立基线,在你的实际工作中运行该设置一个季度,然后将绩效提升与成本并列比较。任何拥有这种结果的人都想要这个测试,因为数字为他们成交。任何将数字保留在演示和推荐中,并将你测量它的要求视为缺乏信任的人,都在告诉你测量会显示什么。 而严谨的研究已经在良好的设置下运行过了。METR 的开发人员是使用前沿工具的经验丰富的人,但在成熟代码上仍然更慢,而咨询和支持试验使用了真实部署,仍然在适合 AI 的任务上只达到百分之几十的提升。更好的设置会让你接近这个范围的上限,并扩大哪些任务落在前沿内。它不会将天花板提升到 10 倍,也没有任何设置能让一个在五年代码库上工作的资深工程师快十倍。**前沿是真实存在的,不管有没有咨询师卖给你绕过它的方法。** 所以,诚实的推销比 5-10 倍更小,但更有用。AI 是一个真实的、不均衡的生产力提升,对于新人来说在定义良好的工作上最大,你必须在价值层面而不是 token 层面去衡量它,并通过在速度提升显现之前就完成的设置来赢得它。这是一个你实际上可以达到并捍卫的数字。 另一个数字,那个你被告知要争取否则就……的数字,不是一个目标。它是他们在卖的产品。

相似文章