2026年6月17日 经济研究:智能体编程与专业知识的持久回报
摘要
Anthropic的研究论文分析了2025年10月至2026年4月期间约40万次Claude Code会话,发现领域专业知识而非编程技能是成功的关键,且任务价值在七个月内上升约25%,而调试时间几乎减半。
暂无内容
查看缓存全文
缓存时间: 2026/06/16 20:34
# 智能体编程与专业知识回报的持续性
来源:https://www.anthropic.com/research/claude-code-expertise
## **主要发现**
- 基于先前关于自主性测量(https://www.anthropic.com/research/measuring-agent-autonomy)和工作变革(https://www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic)的研究,我们提出一个框架,用于研究交互式智能体编程。该框架基于对2025年10月至2026年4月期间约40万次Claude Code会话进行的隐私保护分析(https://www.anthropic.com/research/clio)。我们评估了任务构成、人机协作以及成功率。
- 在一个典型会话中,人做出大部分计划决策(做什么),而Claude做出大部分执行决策(怎么做)。一个人带入会话的领域专业知识越强,Claude每次指令完成的工作就越多。在编程任务上,几乎所有主要职业——以可验证的证据(如通过测试或提交的代码)证明完成了既定目标——的成功率平均与软件工程师相当。
- 一个人的领域专业知识越强,会话以成功告终的频率越高——尽管中级用户与专家用户之间的差距不大。在我们观察的七个月中,调试会话的比例下降近一半,使用场景转向更端到端的智能体化用途:部署和运行代码、分析数据以及编写非代码文档。
- 在这七个月中,典型任务的价值(我们通过与自由职业招聘信息的对比估算)在几乎所有类型的工作中均有上升——平均约25%。
## **引言**
智能体编程已经起飞。自2025年底以来,GitHub项目中智能体编程活动的占比翻了一倍以上¹,Claude Code用户现在平均每周使用该工具20小时²。没有正式编程经验的人能否成功指挥智能体完成复杂的技术工作?这些工具的快速普及和改进又将如何影响更广泛的知识工作?虽然我们尚未完全回答这些问题,但我们从Claude Code的使用数据中寻找早期信号。
本报告基于对2025年10月至2026年4月期间约23.5万人、约40万次交互会话进行的隐私保护分析(https://www.anthropic.com/research/clio),提供了Claude Code实际使用情况的证据。它建立在先前关于Claude Code会话中自主性测量(https://www.anthropic.com/research/measuring-agent-autonomy)以及Claude Code如何改变Anthropic工作方式(https://www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic)的研究基础之上³。在此,我们提出一个框架来描述交互式AI编程助手的使用:正在完成什么类型的工作,谁在做,以及是否成功。我们重点关注通过命令行界面(CLI)、Claude.ai(http://claude.ai/redirect/website.v1.860a5fbf-a5ba-4ed8-851e-aca7d73b04a2)或Claude Code桌面应用使用Claude Code的情况⁴。通过追踪智能体编程使用如何随模型能力增强而变化,我们可以更好地理解这些工具如何影响编程专业人士和知识工作者的劳动力市场。
Claude Code上发生的事情可能预示着知识工作的未来方向——智能体将融入非编程工作。我们发现Claude正在处理更复杂、更有价值的任务。同时,在智能体编程中仍然存在明确的劳动分工:人决定构建什么,而智能体决定如何构建。
我们还看到证据表明,领域专业知识(而非编程熟练度)放大了工具的有效使用。特别是,领域专家更常成功,并且更容易从错误和误解中恢复。然而,专家与中级用户之间的差距不大——这表明在某个领域达到熟练水平足以使工具的使用效果几乎与深度掌握者相当。
这些发现让我们初步预见劳动力市场可能的转型。在我们的数据中,成功取决于一个人对所解决问题的理解程度,而非是否受过编程训练。如果这些模式在整个经济中成立,则表明虽然智能体编程工具可能正在吸收一些实现密集型工作,但它们也在回报那些对自己工作要解决的问题有坚定理解的人。编程智能体并不能替代领域专业知识——工人带给智能体的理解越多,智能体就能完成越多的优质工作。
## **劳动分工**
### **人们用Claude Code做什么**
为了了解人们用Claude Code做什么,我们将每次会话分为九种工作模式之一——最能描述会话试图完成的单一活动⁵。四种模式涉及直接编写或维护代码:构建新东西、修复损坏内容、测试代码以及编排其他智能体或自动化流程。另一种类别是操作软件——部署、配置、运行流程、监控系统。还有两个类别更侧重于确定要做什么:理解现有系统如何工作,以及在更改之前进行规划。最后两种类别执行与代码无关的操作,或者代码对最终产品而言是附带的:分析数据以及通过演示文稿和其他基于散文的文档进行沟通。
大约56%的会话包括编写(25%)、修复(26%)以及测试和编排代码(5%)。操作软件占17%,而14%的会话是规划或探索,13%产生分析或散文(图1)。
**图1:九种工作模式**
每个交互会话被分类为最能描述其尝试完成的单一模式。
我们通过让模型阅读会话记录来对每个会话进行分类,然后使用隐私保护分析工具,将其与每个会话自动记录的遥测数据(包括是否添加或删除了任何代码行)进行核对。两个来源具有高度一致性——例如,我们分类器标记为创建或修改代码的会话中,超过90%在遥测数据中显示了代码更改。详见附录(https://cdn.sanity.io/files/4zrzovbb/website/ef87578c3828dc79d711f6d9c52eff39ac4e3be0.pdf)。
### **谁做决策**
Claude Code有多自主?能力评估表明天花板很高且在上升:在METR的时间跨度评估(https://metr.org/time-horizons/)等基准测试中,前沿模型现在能够自主完成人类需要数小时的软件任务,并沿途克服障碍。但实际使用情况如何?在这里,我们查看实际会话中人和Claude的引导程度。
我们从两个角度研究这个问题。首先,我们关注人们在多大程度上将决策委托给Claude;其次,我们考察他们给予Claude多少行动。为了理解会话中决策制定的分工,我们基于会话内容构建了一个隐私保护的决策归属分类器。我们让分类器列出会话中所有有意义的决策。我们将这些决策分为规划(做什么、采取哪种方法、什么算完成)和执行(更改哪些文件、编写什么代码、使用什么语言、运行哪些命令)。然后,分类器将每个决策归属于Claude或用户,给每个会话两个数值:用户在规划决策中的份额和用户在执行决策中的份额。
平均而言,人做出大约70%的规划决策,但仅做出约20%的执行决策(图2)。在实践中,智能体编程中存在明确的劳动分工——人决定构建什么,而智能体决定如何构建。
为了理解会话中行动的委派情况,我们查看会话的结构而非内容。Claude Code会话涉及Claude和用户在提示(来自用户)和行动(由Claude执行)之间来回交互——用户写一个提示,然后Claude去做一些工作,然后用户再写一个提示,依此类推。在典型会话中,大约有4次这样的轮次。在我们从10月到4月的历史数据中,用户发送的每个提示平均触发Claude采取约10个行动——有时超过100个⁶。在每个轮次中,Claude读取文件、编辑代码、运行命令,并平均输出2400词。
Claude在两次检查点之间完成的工作量很大程度上与谁在做决策相关。当用户保持执行控制权(即做出超过80%的执行决策)时,Claude每次轮次采取的行动较少(约8个行动)。而当Claude控制规划(即做出超过80%的规划决策)时,它承担的行动最多(约16个)。
**图2:Claude在规划和执行决策中的份额**
会话中规划决策(做什么)和执行决策(怎么做)归属于Claude而非用户的份额分布。在典型会话中,用户做出约70%的规划决策,而Claude做出约80%的执行决策。
### **专业水平**
从每个记录中,Claude按五级量表(从新手到专家)评估用户在该任务上的明显专业水平。专业分类器寻找三个信号:用户表达指令的精确程度,他们要求Claude验证的内容,以及用户倾向于纠正Claude还是Claude倾向于纠正用户。注意,专业水平捕捉的是与职位头衔或一般能力截然不同的东西,而且关键在于它是任务特定性的。一位高级工程师提出第一个Rust问题,在Rust方面是新手。一位从未使用过Python的会计师,但精确告诉Claude一个Python脚本必须强制执行哪些对账规则,并捕捉它月末结算时处理错误的边缘情况,在该任务上是专家。
下表显示了我们在分类器中如何定义每个专业水平,以及来自公开编码智能体会话数据集SWE-chat(https://huggingface.co/datasets/SALT-NLP/SWE-chat)的示例请求。被归类为“新手”的会话给出了通用指令,没有隐含的领域特定知识。“专家”会话则传达了对代码库和技术环境的深刻理解。
**表1:专业分类器**
示例对真实会话进行了转述、匿名化和浓缩,这些会话由我们的分类器标记。表中使用的许多会话来自公开的编码智能体会话数据集SWE-chat(https://huggingface.co/datasets/SALT-NLP/SWE-chat)。
我们量化专业水平与Claude每次提示的输出和活动之间的关系。在典型的新手会话中,每个提示触发约5个Claude行动和约600词输出,而专家会话触发的行动链长度是前者的两倍多(12个行动),输出量是前者的五倍(3200词)(图3)。这种新手与专家会话之间的差距出现在每一种工作类型和每一个任务价值区间中。
这些测量补充了我们先前关于Claude Code自主性报告(https://www.anthropic.com/research/measuring-agent-autonomy)中的自主性测量,该报告追踪了智能体运行的时间以及人们自动批准其行动的频率。相比之下,我们的决策归属测量捕捉的是整个会话中谁在做实质性决策,而我们每次提示的输出和行动测量则衡量每个人类提示触发了Claude多少自主活动。
**图3:用户越专业,Claude每次提示完成的工作越多**
对于更专业的用户,Claude每次提示产生更多行动(左图)和更多文本输出(右图)。箱线图表示四分位距(中位数分割)。须线表示第5至第95百分位。白点是几何均值。两个上升趋势均具有统计显著性(p < 0.001),每个相邻级别步骤也显著,并且在控制了工作模式、任务价值、月份、职业和模型系列(标准误差按用户聚类)的回归中,每提升一个专业级别,行动增加9%、输出增加13%,仍然显著。
## **谁在使用Claude Code,以及为了什么**
### **用户**
为了了解谁在做这些工作,我们从会话记录中推断每个用户的职业,将其映射到劳工统计局标准职业分类(SOC)中的23个主要组别之一。分类器被指示仅依赖信号,如智能体在会话开始时加载的项目上下文、文件名和结构、用户引用的任何工件(例如法律文件、临床数据、财务报表、课程等)以及他们使用的词汇⁷。它被明确指示不要将编程行为视为编码职业的证据。只有当有明确信号表明软件或数据工作是用户的职业时,会话才会被分类到编程SOC代码(计算机和数学职业)。如果一位律师构建了一个脚本,用于自动标记合同文件夹中缺失的条款,则该会话被映射到法律职业,即使会话的工作主要是软件。当没有关于用户职业的信号时,该会话保持未分类状态。
我们能够推断大约70%会话中的职业。在这个集合中,计算机和数学职业(一个涵盖大多数软件相关工作的类别)毫无意外是最大的组。其次是商业和金融运营、艺术设计媒体、管理以及生命物理社会科学。在我们样本中增长最快的非软件职业组是管理、销售和法律职业。
### **工作**
从2025年10月到2026年4月,使用Claude Code完成的工作构成发生了显著变化。最明显的变化是,用于修复损坏代码的会话比例从33%下降到19%(图4)。取而代之的是,与代码相关的工作占比增加。操作软件从14%增长到21%的会话。编写和数据分析大致翻倍,从约10%增长到20%的会话。
任务本身也变得更加有价值。我们通过询问该工作在自由职业市场上的成本来近似每次会话的经济价值,并与公开的真实招聘数据集进行校准。以此衡量,平均会话的估计价值在10月至4月期间上升了27%。这种增长在许多类型的工作中都成立。构建、操作和修复类任务的价值大致增长了三分之一或更多(分别约43%、34%和32%)。这些价格估算比较粗略,因此我们主要将它们用于随时间比较任务,而不是作为字面意义上的美元价值⁸。关于任务估算器构建的详细信息,请参阅附录(https://cdn.sanity.io/files/4zrzovbb/website/ef87578c3828dc79d711f6d9c52eff39ac4e3be0.pdf)。
**图4:Claude Code工作的构成与价值,2025年10月至2026年4月**
七个月内每种工作模式的会话比例。修复代码的会话比例从33%下降到19%,而操作软件、分析数据和编写文档的会话比例有所增长。
## **成功取决于用户的投入**
任务的估计价值是了解Claude Code如何帮助人们完成工作的一种方式。另一个角度是查看有多少会话是成功的,以及会话的哪些特征与成功相关。在我们所有的成功衡量标准中,我们看到了一个清晰的模式:一个人在会话中表现出的专业水平越高,成功的可能性就越大。大多
相似文章
@AnthropicAI:我们的最新经济研究引入了一个框架,用于跟踪Claude Code的扩展情况。谁在使用Claude Code,以及…
Anthropic的最新经济研究分析了约40万次Claude Code会话,发现对于成功的代理编码,领域专业知识比编码技能更重要,并且任务价值在七个月内增加了约25%。
Anthropic 刚刚发布了来自40万次Claude Code会话的数据,而标题掩盖了真实故事:你的计算机科学学位正变得可有可无
Anthropic 发布了一篇研究论文,分析了40万次Claude Code会话,发现像律师和会计师这样的非工程师在编程任务上的表现几乎与软件工程师相当,这对传统编程专业知识的价值提出了挑战。
2026年4月29日 科学 评估Claude的生物信息学研究能力:基于BioMysteryBench
Anthropic研究人员利用BioMysteryBench评估了Claude的生物信息学能力,发现当前模型的表现与人类专家相当,在某些复杂生物学问题上甚至优于人类专家。
2026年4月22日经济研究Anthropic经济指数调查发布
Anthropic推出了Anthropic经济指数调查,这是一项月度计划,通过Anthropic Interviewer从Claude用户处收集关于AI对其工作、生产力和未来预期影响的定性数据。
2026年4月22日 经济研究 81,000人告诉我们的人工智能经济学
Anthropic发布了一项针对81,000名Claude用户的调查结果,显示高AI暴露度的劳动者既报告了显著的生产力提升,也增加了对失业风险的担忧。该研究将这些主观的经济恐惧与特定职业中AI使用情况的量化数据进行了关联分析。