AI代理如何重塑知识工作:自主性、效率与范围

arXiv cs.AI 论文

摘要

本研究使用Perplexity的生产数据,比较AI代理与对话式助手,发现代理将完成任务时间减少87%,成本降低94%,同时扩展了知识工作的范围和质量。

arXiv:2606.07489v1 公告类型: 新 摘要: 前沿AI系统正在从对话式助手转向自主代理,以端到端方式执行任务,从而弥合智能与实用性之间的差距。利用Perplexity的Search和Computer产品的生产数据,我们通过研究AI代理如何加速和重塑知识工作来审视这一转变。出现了三个关键实证发现。首先,使用具有几乎相同初始查询对的会话作为自然实验,针对同一底层任务分别使用两种产品,Computer每个用户会话执行26分钟的自主工作,而Search为33秒。Computer自动化了Search用户可能手动编排和执行的任务分解与执行。因此,Computer将后续查询分布转向更高层次的工作,如验证和扩展。自主性还提高了执行质量,Computer上每次查询的不满率比Search低55%。其次,由于其自主优势,Computer在匹配任务上将完成时间从269分钟减少到36分钟,与仅使用Search的人类相比,预计时间和成本分别降低87%和94%。第三,Computer改变了用户尝试的工作范围:Computer的查询更常跨越职业边界,需要更高层次的认知,涉及更广泛的专业知识,采用将相互依赖的子任务捆绑到单个查询中的复合任务形式,并解锁了同一用户在Search使用中基本不存在的工作活动。这些证据共同表明,AI代理加速了工作流程,提高了输出质量,降低了成本,并扩展了自动化工作的广度和深度。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:15

# AI代理如何重塑知识工作:自主性、效率与范围

通讯作者:Jeremy Yang ([email protected]) 和 Jerry Ma ([email protected])。来源:https://arxiv.org/html/2606.07489

###### 摘要

前沿AI系统正从对话式助手过渡到端到端执行任务的自主代理,从而弥合了智能与实用性之间的差距。借助Perplexity的Search和Computer产品的生产数据,我们通过研究AI代理如何加速和重塑知识工作来考察这一转型。我们采用基于个体任务的框架,其中代理具有较高的固定委派成本,但每步的边际执行成本较低。该框架预测,代理访问将可负担任务边界向价值微幅更高的任务扩展,并微幅增加已实现价值;当代理前预算受限时,剩余价值与价值成本比也会微幅提升。转向数据,三个关键实证发现浮出水面。第一,利用近乎相同的初始查询对会话作为自然实验(针对同一潜在任务使用两种产品尝试),Computer每用户会话执行26分钟的自主工作,而Search仅为33秒。Computer自动完成Search用户可能需要手动编排和实现的任务分解与执行。因此,Computer将后续查询分布转向验证和扩展等更高阶工作。自主性也提升了执行质量,Computer上周期的每查询不满率比Search低55%。第二,凭借其自主性优势,Computer在匹配任务上将完成时间从269分钟缩短至36分钟,与仅配备Search的人类相比,估计时间和成本分别降低87%和94%。第三,Computer改变了用户尝试的工作范围:Computer查询更常跨越职业边界,需要更高阶认知,借鉴更广泛的专业知识,采用将相互依赖的子任务捆绑为单一查询的复合任务形式,并解锁了同一用户的Search使用中基本不存在的工作活动。综合来看,证据表明AI代理加速了工作流程、提升了产出质量、降低了成本,并扩大了自动化工作的广度和深度。

## 1 引言

AI经济学中的一个核心问题是它如何重塑知识工作(agrawal2026economics)。随着模型能力的进步,AI产品正在缩小智能与实用性之间的差距,改变它们融入现实工作流程的方式,并创造新的价值来源和工作结构。AI与用户行为也在共同演进,产生了一个不断变化的格局——涉及AI能做什么、如何使用AI以及其下游经济影响是什么。在过去几年中,前沿产品已从对话式助手发展到副驾再到代理。对话式助手(例如,聊天机器人)主要支持孤立的信息交换,上下文或行动能力有限。副驾将这些能力嵌入现有工具和工作流程中,在工具界面内与用户协同工作。代理则更进一步:它们在后端连接更广泛的工具集,并在几乎无需人工参与的情况下返回完成的工件。这种转变是从AI作为对话式助手转向AI作为端到端的工作执行引擎,其特点是更高的自主性和更深入地集成到用户的整个数字环境中。

我们利用Perplexity的数据,通过比较知识工作如何通过对话式助手与代理完成来研究这一转型的影响。作为背景,图1 (https://arxiv.org/html/2606.07489#S1.F1)将Perplexity的产品组合定位在自主性和上下文两个维度上。自主性捕捉系统能够在多大程度上代表用户规划和执行行动,且只需最少的人工干预。上下文集成捕捉系统能够在多大程度上读取和写入用户的环境,包括外部工具和连接的服务。我们使用三种Perplexity产品来说明更广泛的格局:

- • **Perplexity Search**代表基准。Perplexity Search于2022年发布,引入了*答案引擎*产品类别:它允许用户提问,并从包含数十亿文档的知识库中获得带引用的综合答案。
- • **Comet Assistant**代表了自主性和上下文两方面的进步。2025年,Perplexity发布了Comet网页浏览器。其旗舰功能Comet Assistant是一个帮助用户在浏览器内访问知识和执行工作的代理。Comet Assistant通过将交互迁移到应用层(许多知识工作已发生在此处)使人类与AI的集成更加连续,允许AI通过推理和作用于开放的网页环境来与用户协同工作。
- • **Perplexity Computer**在自主性和上下文两方面都更进一步。Computer于2026年发布,是一个通用代理编排系统,可在日益广泛的环境和长时间范围内执行工作。Computer用户指定一个结果,系统便会自主地搜索、浏览、编码、创建文档、访问外部服务、将工作委派给下级代理,并持续努力直到通过现实世界的行动或可交付成果完成该结果。

参见图注

**图1:** 按自主性和工作流-上下文集成划分的AI产品演进。Perplexity的Search代表了信息检索与综合的基准;Comet Assistant在交互式浏览器界面之上引入了更深入的上下文集成和执行;Computer作为代理编排器,将长周期异步执行与更深更广的上下文集成相结合。

我们的论文首次提供了关于从对话式助手向代理编排转变在广泛知识工作任务层面的经济影响的实地证据。我们首先定义了一个简单的基于个体任务的框架,以突出关键的经济力量并为我们的实证分析奠定基础。每个任务按其所需的步骤数索引,每个步骤代表一个原子工作单元,更长的任务产生微幅更高的价值。该模型聚焦于成本结构的变化:相对于对话式助手,代理通过用自主执行取代手动操作来降低每步的边际成本,但通过委派和验证施加了更高的固定成本。该框架预测,代理访问将可负担任务边界向价值微幅更高的任务扩展,并微幅增加总已实现价值;当代理前预算受限时,总剩余和整体价值成本比的提升随之成为推论。

然后,我们通过将Search和Computer分别映射到对话式助手和代理类别,将框架与我们的实证环境联系起来。我们围绕四个主题组织实证分析:

1. 1.**采用**(第5节 (https://arxiv.org/html/2606.07489#S5))。Computer增长迅速:在三个月的研究窗口内(2026年2月27日至5月27日),累计查询量达到首周总量的84倍。对10万条已分类查询的随机样本进一步刻画了用例分布:研究与分析(25.8%)以及文档与资产创建(18.6%)占主导地位,结构化工件(例如,文档、网站、代码库、电子表格)约占预期产出的三分之一。
2. 2.**自主性**(第6节 (https://arxiv.org/html/2606.07489#S6))。由于相同用户在同一时期与两种产品交互,我们利用匹配会话作为自然实验来控制用户和任务异质性。在1万个具有近乎相同初始查询对(余弦相似度>0.99)的会话对中,Computer每会话执行26分钟的自主规划和执行,而Search为33秒,机器工作时长增加了48倍。对来自1000个匹配多轮会话的后续查询的分类显示,Computer用任务验证和扩展取代了手动指令。更高的自主性实现并未牺牲质量:在下一轮不满信号上,Computer在1.3%的查询上引发中到高度不满,而Search为2.9%,减少了55%。
3. 3.**效率**(第7节 (https://arxiv.org/html/2606.07489#S7))。在相同的匹配会话上,仅配备Search的人类平均需要269分钟来完成一个任务。用自动化执行取代手动操作后,Computer + 人类工作流程将平均任务完成时间缩短至36分钟,使时间和成本分别降低87%和94%。盈亏平衡分析表明,一名由Search辅助的人类专业人员需要在20分钟内完成所有手动步骤才能与Computer + 人类的成本相匹配。敏感性分析进一步证实了对人类时间估计变化的稳健性。这些结果通过独立的LLM驱动程序和用户访谈进行了交叉验证。
4. 4.**范围**(第8节 (https://arxiv.org/html/2606.07489#S8))。自主执行还扩展了用户尝试的工作范围。*横向*:基于来自8个职业集群的8000名用户及其所有查询的样本,Computer查询比同一用户的Search查询更常涉足用户主要职业之外。这一模式在所有8个职业集群中均成立,平均差距为9个百分点。*纵向*:任务难度也存在差异。对来自5000名双产品用户样本的1万个Computer和Search查询的分类表明:
  1. (a)Computer查询的认知复杂性更高:71%为抽象非例行任务,而Search为53%;76%为高阶Bloom认知层次,而Search为55%;Create级别工作占Computer查询的50%,而Search为26%。
  2. (b)Computer查询借鉴了更广泛的能力集:每个Computer查询平均需要2.40个不同的O\*NET知识领域的实质性专业知识,而Search为1.74(增长38%),Computer需要三个或更多领域的可能性几乎是Search的三倍(51%对17%)。
  3. (c)Computer将更多任务组合为单一查询:在任务活动层面,Computer查询平均涉及2.95项O\*NET的综合工作活动,而Search为2.24(增长32%);涉及4.01项中级工作活动,而Search为2.87(增长40%);在更细粒度上差距更大,详细工作活动多出59%(3.64对2.29),每查询涉及的职业特定任务陈述多出60%(3.81对2.38)。
  4. (d)Computer为用户解锁了新的任务可能性:23%的Computer查询涉及至少一个从未出现在同一用户Search查询中的O\*NET任务陈述。在更粗粒度上占比更小(详细工作活动为5%,中级和综合工作活动低于1%),表明Computer的独特性在于细粒度的执行性工作,而非粗略的主题范围。随着容忍阈值放宽,这些占比也增加。

综合来看,这些发现表明自主任务执行加速了现有工作流程、提高了质量、降低了成本,并扩大了用户承担的工作范围。通过自动化需要专业知识的任务生成性组件,代理使用户更容易涉足其核心能力之外的领域,并承担那些生产成本高但相对容易验证的任务。随着个体工作者吸收先前跨越职业边界和专业知识水平的任务,这些发现也表明协调成本降低,对职业和组织结构具有更广泛的影响。

本文结构如下。第2节 (https://arxiv.org/html/2606.07489#S2)阐述了我们的贡献相对于先前关于AI生产力影响、自主代理能力和任务重组的研究。第3节 (https://arxiv.org/html/2606.07489#S3)发展了一个基于个体任务的概念框架,以推导福利预测并推动实证分析。第4节 (https://arxiv.org/html/2606.07489#S4)描述了从Perplexity的Search和Computer产品在2026年2月至5月研究期间抽取的样本。第5节 (https://arxiv.org/html/2606.07489#S5)、第6节 (https://arxiv.org/html/2606.07489#S6)、第7节 (https://arxiv.org/html/2606.07489#S7)和第8节 (https://arxiv.org/html/2606.07489#S8)依次呈现四个实证主题:采用增长与用例;匹配会话上的自主性提升;任务时间和成本的减少;以及工作范围的扩大。第9节 (https://arxiv.org/html/2606.07489#S9)讨论了局限性和启示。证明、说明命题的数值示例以及补充分析和用户访谈材料收录于附录中。

## 2 相关工作

##### AI助手的生产力影响。
越来越多的实验证据记录了生成式AI助手对生产力的影响。例如,noy2023experimental发现,在包含453名专业人员的随机实验中,ChatGPT将写作时间减少了40%,并将产出质量提高了18%,其中能力较低的工人受益最大。brynjolfsson2025generative研究了5172名客服支持代理,报告称每小时解决的问题增加了14%,同样新手工人的收益不成比例地高。dellacqua2023navigating发现,使用GPT-4的BCG顾问在模型能力边界内的任务上绩效提升了高达40%,但在超出边界任务上表现更差,这种“锯齿状边界”强调了任务-工具匹配的重要性。在更大规模上,cui2024effects对4867名软件开发人员进行了三项现场实验,发现GitHub Copilot将完成任务增加了26%,初级开发人员受益最大。一个值得注意的反例来自becker2025measuring,其随机试验发现使用AI工具的经验丰富的开源开发者速度慢了19%,表明生产力提升可能取决于任务熟悉度和开发人员专业知识。与此相关,vendraminelli2025genai记录了“GenAI墙壁效应”,即AI辅助未能缩小职业内部人士与外部人士之间的绩效差距,凸显了通过交互式工具进行横向专业知识迁移的局限性。在受控实验之外,tamkinmccrory2025productivity直接从大规模Claude使用日志中估算生产力提升,发现在更广泛的任务集上节省了80%的时间。这些研究聚焦于人类与AI助手交互式协作、AI辅助每一步的场景。我们的环境不同,因为Computer用异步委派取代了交互式循环。

##### 从辅助到自主AI代理。
从交互式助手到自主代理的演进是由工具使用和多步推理的进步推动的。schick2023toolformer证明语言模型可以学习以自监督方式调用外部工具;yao2023react展示将推理轨迹与行动步骤交错进行,能提高知识密集型和决策型任务的完成度。kwa2025measuring引入了“时间跨度”指标(代理达到50%成功率时的任务时长),并估计该前沿约为12人工小时,大约每七个月翻一番。除了能力测量,生产部署开始揭示代理的使用和影响

相似文章

AI 代理如何重塑知识工作(18 分钟阅读)

TLDR AI

本文介绍了 Perplexity 与哈佛商学院合作研究的结果,探讨了像 Perplexity 的 Computer 这样的 AI 代理如何重塑知识工作,显示出在降低成本的同时提高了自主性、效率和范围。

AI智能体终于开始真正实用了

Reddit r/AI_Agents

作者认为AI智能体终于在实际工作中变得实用,重点突出了编码助手、研究摘要和业务自动化等关键改进领域。他指出,窄聚焦的智能体比完全自主的智能体表现更好。