@AnthropicAI:我们的最新经济研究引入了一个框架,用于跟踪Claude Code的扩展情况。谁在使用Claude Code,以及…

X AI KOLs 论文

摘要

Anthropic的最新经济研究分析了约40万次Claude Code会话,发现对于成功的代理编码,领域专业知识比编码技能更重要,并且任务价值在七个月内增加了约25%。

我们的最新经济研究引入了一个框架,用于跟踪Claude Code的扩展情况。 谁在使用Claude Code,他们用它做什么?任务的价值如何变化?领域专业知识在多大程度上决定了会话的成功? https://t.co/IjjwQvrESo
查看原文
查看缓存全文

缓存时间: 2026/06/16 21:42

我们最新的经济研究引入了一个框架,用于追踪 Claude Code 在规模化过程中的表现。

谁在使用 Claude Code,他们用它来做什么?任务的价值是如何变化的?领域专业知识在多大程度上决定了一次会话是否成功? https://t.co/IjjwQvrESo


智能编码与专业知识的持久回报

来源:https://www.anthropic.com/research/claude-code-expertise

主要发现

  • 在之前(https://www.anthropic.com/research/measuring-agent-autonomy)的工作(https://www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic)基础上,我们引入了一个框架,用于研究交互式智能编码。该框架基于对 2025 年 10 月至 2026 年 4 月期间约 40 万次 Claude Code 会话的隐私保护分析(https://www.anthropic.com/research/clio)。我们评估了任务的组成、人机协作以及成功率。
  • 在一次典型会话中,人类做出大部分规划决策(做什么),而 Claude 做出大部分执行决策(怎么做)。一个人带入会话的领域专业知识越多,Claude 每次指令完成的工作就越多。在编码任务上,每个主要职业都以与软件工程师几乎相同的平均成功率成功——实现了用户设定的目标,并带有可验证的证据,如通过的测试或已提交的工作。
  • 一个人的领域专业知识越丰富,会话成功的频率就越高——尽管中级用户和专家用户之间的差距并不大。在我们观察的七个月里,用于调试的会话比例下降了近一半,使用方式转向了更多端到端的智能代理式使用:部署和运行代码、分析数据以及编写非代码文档。
  • 在这七个月中,典型任务的价值——我们通过与自由职业岗位招聘信息进行比较来估算——在几乎所有类型的工作中都有所上升,平均约增长 25%。

引言

智能编码已经蓬勃发展。自 2025 年末以来,涉及编码智能代理活动的 GitHub 项目比例翻了一番以上,¹ Claude Code 用户现在平均每周使用该工具 20 小时。² 没有正式编码经验的人能否成功引导一个智能代理完成复杂的技术工作?这些工具的快速普及和改进对知识工作整体意味着什么?虽然我们尚未完全回答这些问题,但我们通过 Claude Code 的使用数据来寻找早期信号。

本报告基于对 2025 年 10 月至 2026 年 4 月期间约 23.5 万名用户的约 40 万次交互式会话进行的隐私保护分析(https://www.anthropic.com/research/clio),提供了关于 Claude Code 在实践中如何使用的证据。它建立在先前专注于 Claude Code 会话自主性度量(https://www.anthropic.com/research/measuring-agent-autonomy)以及 Claude Code 如何改变 Anthropic 工作方式(https://www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic)的工作之上。³ 在此,我们引入一个框架来描述交互式 AI 编码助手的使用情况:正在做什么样的工作,谁在做,以及是否成功。我们重点关注通过命令行界面(CLI)、Claude.ai (http://claude.ai/redirect/website.v1.860a5fbf-a5ba-4ed8-851e-aca7d73b04a2) 或 Claude Code 桌面应用程序使用 Claude Code 的情况。⁴ 通过追踪智能编码使用方式如何随着模型能力的增强而变化,我们可以更好地理解这些工具如何影响编码专业人士和知识工作者的劳动力市场。

Claude Code 上发生的事情可能是知识工作未来走向的一个预览,因为智能代理正在嵌入非编码工作。我们发现 Claude 正在处理更复杂、更有价值的任务。同时,在智能编码中仍然存在明确的分工:人类决定构建什么,而智能代理决定如何构建。

我们还看到证据表明,领域专业知识(而非编码熟练度)放大了工具的有效使用。特别是,领域专家更常成功,并且更容易从错误和误解中恢复。然而,专家和中级用户之间的差距很小——这表明拥有某个领域的熟练程度就足以几乎像那些深谙此道的人一样有效地使用该工具。

这些发现让我们对劳动力市场可能的转型有了初步了解。在我们的数据中,成功取决于一个人对要解决问题的理解程度,而不是他们是否受过编码培训。如果这些模式在整个经济中成立,那么这意味着虽然智能编码工具可能正在吸收一些执行密集型的工作,但它们也在奖励那些对其工作中解决的问题有深刻理解的人。编码智能代理并不能替代领域专业知识——工作者带给智能代理的理解越多,智能代理能够完成的优质工作就越多。

分工

人们用 Claude Code 做什么

为了了解人们用 Claude Code 做什么,我们将每次会话归类为九种工作模式之一——即最能描述该会话试图完成的单一活动。⁵ 四种模式涉及直接编写或维护代码:构建新内容、修复损坏内容、测试代码以及编排其他智能代理或自动化流水线。另一类是操作软件——部署、配置、运行流水线、监控系统。两个类别更多是关于确定要做什么:理解现有系统如何工作,以及在做出更改之前进行规划。还有两个类别采取与代码无关的操作,或者代码对最终产品来说只是附带性的:分析数据,以及通过演示文稿和其他基于散文的文档进行沟通。

大约 56% 的会话包括编写(25%)、修复(26%)或测试和编排代码(5%)。操作软件占 17%,而 14% 的会话是规划或探索,13% 产生分析或散文(图 1)。

图 1:九种工作模式每次交互式会话被归类为最能描述其试图完成的单一模式。

我们通过让一个模型读取会话记录来对每次会话进行分类,然后使用我们的隐私保护分析工具,对照每次会话自动记录的遥测数据(包括是否添加或删除了任何代码行)进行检查。这两个来源具有高度一致性——例如,我们的分类器标记为创建或修改代码的会话中,超过 90% 在遥测数据中显示了代码更改。详见附录(https://cdn.sanity.io/files/4zrzovbb/website/ef87578c3828dc79d711f6d9c52eff39ac4e3be0.pdf)。

谁做决定

Claude Code 的自主性有多高?能力评估表明其上限很高且正在上升:在诸如 METR 的时间跨度评估(https://metr.org/time-horizons/)等基准测试中,前沿模型现在可以完成人类需要数小时的软件任务,并在过程中自主克服障碍。但在实践中,使用情况究竟如何?这里,我们关注在真实会话中人类和 Claude 各自承担了多少引导工作。

我们从两个角度研究这个问题。首先,我们关注人类在多大程度上将决策委托给 Claude;其次,我们关注人类给予 Claude 多少行动。为了理解会话中决策的分工,我们构建了一个基于会话内容的隐私保护决策归属分类器。我们要求分类器列出会话中所有有意义的决策。我们将这些决策分为规划(做什么,采取哪种方法,什么算完成)和执行(更改哪些文件,编写什么代码,使用什么语言,运行哪些命令)。然后,分类器将每个决策归属于 Claude 或用户,为每次会话提供两个数字:用户在规划决策中的份额和用户在執行决策中的份额。

平均而言,人类做出约 70% 的规划决策,但仅做出约 20% 的执行决策(图 2)。在实践中,智能编码中有明确的分工——人类决定构建什么,而智能代理决定如何构建。

为了理解会话中行动的委派情况,我们关注会话的结构而不是内容。一次 Claude Code 会话涉及 Claude 和用户来回进行提示(来自用户)和行动(由 Claude 执行)——用户编写一个提示,Claude 去执行一些工作,然后用户再编写另一个提示,依此类推。在一次典型会话中,大约有 4 次这样的回合。在我们从 10 月到 4 月的历史数据中,用户发送的每个提示平均会触发 Claude 执行大约 10 个行动链——有时甚至超过 100 个。⁶ 在每个回合中,Claude 读取文件、编辑代码、运行命令,并平均输出 2400 字的内容。

Claude 在两次检查之间做了多少工作,很大程度上与谁在做决策有关。当用户保持对执行的控制(即做出超过 80% 的执行决策)时,Claude 每个回合采取的行动较少(约 8 个)。而当 Claude 控制规划(即做出超过 80% 的规划决策)时,它采取的行动最多(约 16 个)。

图 2:Claude 在规划和执行决策中的份额会话中由 Claude(而非用户)承担的规划决策(做什么)和执行决策(怎么做)份额的分布。在典型会话中,用户做出约 70% 的规划决策,而 Claude 做出约 80% 的执行决策。

专业水平

从每个记录中,Claude 将用户在任务上的明显专业水平从新手到专家分为五个等级。专业水平分类器寻找三个信号:用户表述指令的精确程度、他们要求 Claude 验证的内容,以及是用户倾向于纠正 Claude 还是 Claude 倾向于纠正用户。请注意,专业水平捕捉的是与职位头衔或一般能力截然不同的东西,而且关键是,它是任务特定性的。一位高级工程师询问他们的第一个 Rust 问题,在 Rust 方面就是新手。一位从未使用过 Python 的会计师,但准确告诉 Claude Python 脚本必须执行哪些对账规则,并在月末结账时捕捉到了它处理错误的一个边缘情况,那么在该任务上就是专家。

下表显示了我们在分类器中如何定义每个专业水平,以及来自编码智能代理会话公共数据集 SWE-chat (https://huggingface.co/datasets/SALT-NLP/SWE-chat) 的示例请求。被归类为 Novice 的对话给出了通用指令,没有隐含的领域特定知识。Expert 对话则传达了对代码库和技术环境的深入了解。

表 1:专业水平分类器这些示例对分类器标记的真实会话进行了改写、匿名化和浓缩。表中使用的许多会话来自编码智能代理会话的公共数据集 SWE-chat (https://huggingface.co/datasets/SALT-NLP/SWE-chat)。

我们量化了专业水平与每次提示的 Claude 输出和活动之间的关系。在典型的新手会话中,每个提示会触发约 5 个 Claude 行动和大约 600 字的输出,而专家会话触发的行动链长度超过两倍(12 个行动),输出量是五倍(3200 字)(图 3)。新手和专家会话之间的这种差距出现在每种工作类型和每个任务价值区间中。

这些度量补充了我们先前关于 Claude Code 的报告中(https://www.anthropic.com/research/measuring-agent-autonomy)的自主性度量,该报告追踪了智能代理运行的时间以及人们自动批准其行动的频率。相比之下,我们的决策归属度量捕捉了会话整体中谁在做实质性决策,而我们的每次提示输出和行动度量则衡量了每个人类提示触发了 Claude 多少自主活动。

图 3:Claude 对更专业用户每次提示做更多事对于更专业的用户,Claude 每次提示产生更多行动(左柱)和文本输出(右柱)。方框代表四分位距(中位数分割)。须线代表第 5 至第 95 百分位。白点是几何平均值。两个上升趋势均具有统计显著性(p < 0.001),每个相邻级别的步骤也是如此,并且在控制了工作模式、任务价值、月份、职业和模型系列的回归中(标准误差按用户聚类),它们仍然显著(每个专业水平增加 +9% 行动和 +13% 输出)。

谁在使用 Claude Code,以及用于什么

用户

为了了解谁在做这项工作,我们从会话记录中推断每个用户的职业,将其映射到劳工统计局标准职业分类 (SOC) 中的 23 个主要组别之一。分类器被指示仅依赖诸如智能代理在会话开始时加载的项目上下文、文件的名称和结构、他们引用的任何工件(例如,法律文件、临床数据、财务报告、课程等)以及他们使用的词汇等信号。⁷ 它被明确指示不要将编码行为视为编码职业的证据。只有当有明确信号表明软件或数据工作是用户的工作时,会话才会被归类为编码 SOC 代码(计算机和数学职业)。一个律师构建脚本以自动标记一个合同文件夹中缺失条款的会话,会映射到法律职业,即使会话的工作主要是软件。当没有关于用户职业的信号时,会话保持未分类。

我们能够推断出约 70% 会话中的职业。在这个集合中,计算机和数学职业(包含大多数与软件相关的工作的类别)不出所料是最大的群体。接下来最大的群体是商业和金融运营、艺术、设计、媒体、管理,以及生命、物理和社会科学。我们的样本中增长最快的非软件职业群体是管理、销售和法律职业。

工作

从 2025 年 10 月到 2026 年 4 月,使用 Claude Code 完成的工作构成发生了显著变化。最明显的变化是用于修复损坏代码的会话比例从 33% 下降到 19%(图 4)。取而代之的是,我们看到围绕代码的工作比例增加。操作软件从会话的 14% 增长到 21%。编写和数据分析大约翻了一番,从约 10% 增长到会话的 20%。

任务本身也变得更有价值。我们通过询问工作在自由职业市场上的成本来估算每次会话的经济价值,并与真实招聘信息的公共数据集进行校准。根据这个度量,平均会话的估计价值在 10 月到 4 月之间增长了 27%。这种增长在许多类型的工作中都存在。构建、操作和修复类任务的价值都增长了大约三分之一或更多(分别约为 43%、34% 和 32%)。这些价格估计是粗略的,因此我们主要将它们用于比较不同任务随时间的变化,而不是字面意义上的美元价值。⁸ 关于任务估计器构建的详细信息,请参见附录(https://cdn.sanity.io/files/4zrzovbb/website/ef87578c3828dc79d711f6d9c52eff39ac4e3be0.pdf)。

图 4:Claude Code 工作的构成和价值,2025 年 10 月至 2026 年 4 月七个月窗口期内每种工作模式的会话份额。修复损坏代码的会话比例从 33% 下降到 19%,而操作软件、分析数据和编写文档的会话份额则有所增长。

成功取决于用户的输入

任务的估计价值是了解 Claude Code 如何帮助人们完成工作的一种方式。

相似文章

Claude Code 在大型代码库中的工作原理

Hacker News Top

Anthropic 的博文详细介绍了在大型复杂代码库中使用 Claude Code 的最佳实践,阐述了代理搜索以及如 CLAUDE.md 文件等扩展的“利用”如何在大规模下提升导航和性能。

Claude Code: 智能体编程最佳实践

Anthropic Engineering

本文介绍了使用 Anthropic 的 Claude Code 这一智能体编程环境的最佳实践,重点包括管理上下文窗口、为代码提供验证标准,以及将探索与执行分离以提升性能。

深入Claude Code:当前与未来AI代理系统的设计空间

Hugging Face Daily Papers

本文分析了Claude Code作为代理编程工具的架构,识别出影响其实现的五种人类价值观和十三项设计原则,包括安全系统、上下文管理和可扩展机制。研究将Claude Code与OpenClaw进行比较,展示了不同的部署环境如何针对常见的AI代理设计挑战产生不同的架构解决方案。