AI 代理如何重塑知识工作(18 分钟阅读)

TLDR AI 新闻

摘要

本文介绍了 Perplexity 与哈佛商学院合作研究的结果,探讨了像 Perplexity 的 Computer 这样的 AI 代理如何重塑知识工作,显示出在降低成本的同时提高了自主性、效率和范围。

像 Perplexity 的 "Computer" 这样的 AI 代理通过自主执行任务来增强知识工作,与传统搜索和人工执行相比,时间减少了 87%,成本降低了 94%。自主执行使用户能够专注于目标设定和监督,从而实现跨越特定专业领域的复杂和跨学科任务。
查看原文
查看缓存全文

缓存时间: 2026/06/10 00:24

# AI智能体如何重塑知识工作 来源:https://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work 前沿AI系统正在缩小模型智能与现实世界实用性之间的差距。新的模型、计算架构和编排模式正在使这些系统能够完成几个月前还被视为不可能的任务。 这种快速创新对AI用户来说是一大福音,放大了他们的杠杆作用和自主性。然而,它也造成了技术前沿与我们对其如何改变知识工作的理解之间的滞后。前沿AI如何改变各职业中知识工作的性质?我们可以预期这项工作会经历哪些结构和经济上的转型? 我们试图通过对Perplexity使用情况的仔细实证分析来弥合这一差距。今天,我们与哈佛商学院的 researchers 合作,分享我们对Perplexity Computer (https://www.perplexity.ai/products/computer) 在实际部署中的首次全面研究。我们的发现表明,Computer 以更低的成本扩展了用户所能完成任务的广度和深度。Computer 用户完成了更多工作,在更高的抽象层面上工作,并且跨越学科界限,在自己专业领域之外创造价值。 本文展示了我们研究的亮点。详细的方法和发现在我们的技术报告 (https://arxiv.org/abs/2606.07489) 中提供。 ## 引言 第一批主流生成式AI系统是与用户进行对话的对话式助手。这些助手介于意图和行动之间。它们回答问题、解释权衡、并建议下一步行动。然后,用户必须将答案转化为实际工作:打开正确的工具、收集文件、编辑文档、检查中间输出,并决定下一步做什么。 智能体改变了这种分工。用户指定一个结果,系统则在各种工具间进行规划、执行中间步骤、在需要时请求缺失的输入信息,并返回一个完整的交付物。智能体将AI的用途从查找和综合信息,转变为自主规划和执行任务。 这一发展轨迹驱动了Perplexity自身产品的演进。2022年,我们推出了Search,它通过让用户能够提问并获取有可验证引用的答案(覆盖数十亿文档),定义了答案引擎这个品类。2025年,我们推出了Comet浏览器,它内置了一个Web智能体,能在开放网络上与用户一起推理和行动。而在2026年,我们推出了Computer,一个通用的智能体编排器,能够在复杂环境和较长的时间跨度内,自主地朝着用户指定的目标工作。 这种转变如何改变我们的工作方式?我们使用来自Search和Computer产品的数据来探讨这个问题,聚焦于三个维度: - **自主性:** Computer 在相同任务上比 Search 执行多少自主工作? - **效率:** 相对于 Search,Computer 在相同任务上节省了多少时间和劳动力成本? - **范围:** Computer 如何改变用户尝试的工作类型? 我们发现,像 Computer 这样的智能体需要用户前期付出更多努力(因为用户必须指定要委托的目标并审查结果),但每单位工作所需的人工努力却少得多(因为执行更加自主)。这使得它们在处理冗长、多步骤的工作流程时特别有效。回报是既更深层又更便宜的工作。Computer 将用户的努力从手动执行转移到监督,扩展了用户在自己的专业领域内外能够完成的任务范围。 ## Computer 的采用与使用案例 Computer 于 2026 年 2 月 25 日发布,并在前三个月快速增长。 截至 5 月 27 日,Computer 的累计查询量达到了首周总量的 84 倍。作为基准,Computer 用户的累计 Search 使用量达到了首周总量的 14 倍,高于非 Computer 用户的 12 倍增长。 即使在根据订阅等级、主要 Search 主题和先前 Search 强度对 Computer 用户和非 Computer 用户进行匹配后,双重差分比较显示,采用 Computer 会增加 Search 的使用:Computer 用户比类似的非 Computer 用户每天多发出 1.05 次 Search 查询。 累计增长以每个系列的首周为基准。在 2 月 27 日至 5 月 27 日期间,Computer 的查询量达到了首周累计总量的 84 倍。 ###### 累计增长以每个系列的首周为基准。在 2 月 27 日至 5 月 27 日期间,Computer 的查询量达到了首周累计总量的 84 倍。 在一个包含 10 万次 Computer 查询的随机样本中,研究与分析是最大的任务类别,占 25.8%,其次是文档和资产创建,占 18.6%。观察到的任务组合偏向于生成性工作:需要跨多个工具协作完成的文档、电子表格、代码库、网站和工作流程。 在领域方面,使用广泛分布于软件与IT、金融与投资、市场营销与销售、业务运营、医疗保健、教育、法律和媒体等领域。 按任务类别和学科领域划分的 Computer 使用案例。 ###### 按任务类别和学科领域划分的 Computer 使用案例。研究、分析、文档创建、软件、金融、业务运营和个人工作流程都显著出现。 ## 更高的自主性与质量 自主性最直接的信号是,在用户提交请求后,系统在没有人工干预的情况下运行了多长时间。Search 通常在几秒钟内返回响应。Computer 则常常持续工作几分钟甚至几小时:搜索、浏览、写作、编辑、运行代码以及检查中间结果。 我们使用初始查询几乎相同的 Search 和 Computer 会话,作为用两种产品尝试相同任务的代理。在 10,000 个匹配对中,Computer 每次会话平均执行 26 分钟的机器执行时间,而 Search 为 33 秒。对于实质上相同的任务,机器工作量增加了 48 倍。在中位数上,差距是 9 分钟对 14 秒,即 40 倍。领域划分显示出相同的模式:在所有 18 个领域中,Computer 执行的机器工作量大约是 Search 的 26 到 75 倍。 匹配的 Computer 和 Search 会话的每次会话机器执行时间。 ###### 匹配的 Computer 和 Search 会话的每次会话机器执行时间。Search 集中在较短的响应时间附近;Computer 的分布更广,集中在长时间运行的自主执行上。Computer 的平均执行时间(26 分钟)远高于中位数(9 分钟),表明存在大量复杂、长周期请求的长尾。 按领域划分的平均机器执行时间。 ###### 按领域划分的平均机器执行时间。Computer 每次会话完成的工作量大得多,因为每次用户交互都会触发下游执行,而不仅仅是生成对话式响应。 更长时间的自主运行并未转化为更高的放弃率。用户停止事件在不同产品间相似:3.7% 的 Computer 会话和 3.4% 的 Search 会话包含至少一个用户停止事件。Computer 确实更频繁地暂停以等待用户输入:13% 的 Computer 查询调用了至少一个“暂停等待用户”的工具,而 Search 为 0.3%,通常是为了请求批准或提出澄清问题。这是智能体的预期模式:它在大多数情况下可以自主运行,但需要检查点来获取许可并确认用户想要什么。 Computer 通过模型上下文协议(MCP)或应用程序编程接口(API)端点,在单个会话中链接了更多外部工具调用,完成了 Search 用户本需要跨不同应用手动完成的工作。7.9% 的 Computer 会话进行了至少一次连接器调用,而 Search 会话为 1.8%(差距为 4 倍);Computer 每次会话平均进行 1.19 次连接器调用,而 Search 为 0.10 次(比例为 12 倍)。换句话说,Computer 不仅运行时间更长,它还跨越用户更多的连接服务来获取数据和执行操作。 后续行为在构成上也发生了变化。在一个包含 1,000 对多轮交互的样本中,推进任务的总体倾向在产品间几乎相同(Computer 后续交互为 52.7%,Search 为 52.9%),但用户询问的内容发生了变化:由于 Computer 一开始就返回更完整的交付物,其用户更倾向于用“扩展”来替代“澄清性深入”查询(扩展占 14.2% 对 12.5%;深入占 22.0% 对 23.4%)。Computer 用户也将稍多一点的后续交互用于审查和修订输出(24.6% 对 23.6%),而 Search 中较短指令(如确认、重试和格式要求)的占比更高(11.6% 对 9.9%),这些指令 Computer 会在初始运行中完成。换句话说,Search 创建了更短的“消化-执行”循环;Computer 创建了更长的“审查-扩展”循环。 最重要的是,质量并未随着自主性的提高而下降。在匹配的多轮会话中,下一轮显著不满意的比例,Computer 为 1.3%,而 Search 为 2.9%,降低了 55%。包括轻微信号在内的任何不满意比例,Computer 为 10.8%,而 Search 为 16.6%。 ###### 匹配的多轮样本中的下一轮不满意信号。由于四舍五入,列总和可能不完全等于 100%。 ## 自主性带来的效率提升 更高的自主性用机器计算替代了人工手动工作,从而提高了效率。为了量化这种效应,我们在相同的匹配任务上比较了两种设置。 - **Search + 人工:** Search 处理检索和综合;人工手动执行。 - **Computer + 人工:** Computer 执行工作流程;人工界定任务范围并审查输出。 我们无法直接观察到一项任务需要人类花费多长时间,因此我们通过三种独立的估计进行三角验证: - **基于工具的估计:** 我们将 Computer 的工具调用分为两类:“Search”和“Do”。Search 工具对应 Search 产品已处理的信息检索和综合步骤。Do 工具代表仅使用 Search 时,人类需要手动执行的步骤。然后,我们估计一个有经验的人类执行这些 Do 操作所需的时间。 - **基于 LLM 的估计:** 我们将来自 Computer 会话的查询输入到 LLM,用于估计一个熟练的专业人士在收到 Search 的答案后,但必须手动执行所有步骤所需的时间。 - **用户报告的估计:** 我们对来自不同领域的活跃 Computer 用户进行了 25 次半结构化访谈,了解他们使用 Computer 前的工作流程以及这些流程原本需要的时间。 ###### 基于工具估计中使用的工具分类。“Search”工具反映了 Search 已提供的能力,因此不计入人工时间。“Do”工具要求人类根据 Search 的研究结果采取行动;每次调用的分钟数估计值近似于一个熟练专业人员手动执行等效操作所需的时间。 在基于工具的估计下,平均每个“Search + 人工”任务需要 269 分钟,而相应的“Computer + 人工”工作流程需要 36 分钟。任务时间减少了 87%。 为了将任务时间转化为成本,我们使用了美国劳工统计局职业就业和工资统计(BLS OEWS)2025年5月数据(美国劳工统计局 2026年)中按领域划分的平均时薪。结合模型成本与特定领域的人力成本,Computer 平均将估计的任务成本降低了 94%。 Search + 人工与 Computer + 人工的估计任务时间和成本。 ###### Search + 人工与 Computer + 人工的估计任务时间和成本。在“Search + 人工”基准线中,人力成本占主导地位,而 Computer 将大部分工作转移到了模型和工具执行上。 ###### Computer + 人工相对于 Search + 人工节省的时间和成本百分比,括号内为倍数(例如,94% (16×) 意味着 Computer + 人工便宜 94% 或 16 倍)。人力成本使用 BLS OEWS 2025年5月的平均时薪。 效率优势在所有 18 个领域中都存在,时间节省 79–92%,成本节省 87–96%。编程是最极端的案例:“Search + 人工”需要 596 分钟,而“Computer + 人工”需要 48 分钟——时间减少了 92%,成本减少了 96%。商业、技术、教育和写作也显示出巨大的收益。在工资较高的领域,时间节省往往会转化为更大的成本节省。 这个结果有多稳健?考虑一个盈亏平衡点:要使“Search + 人工”的成本与“Computer + 人工”相匹配,专业人士需要在 14–24 分钟(中位数 18 分钟)内完成所有手动步骤。即使在更保守的假设下(例如,每个工具的时间被高估 8 倍,或者 Computer 的监督时间被低估 12 倍),Computer 在每个领域都保持了优势。 基于 LLM 的估计得出了相似的总体结果:总体时间减少 84%,成本减少 93%。用户访谈显示的结果范围更广——从 5 倍到超过 300 倍的加速——这可能反映了用户使用 Computer 前的基线存在巨大差异。参与者中位数加速为 25 倍,相当于时间减少了 96%。 ## 任务范围横向与纵向扩展 匹配任务上的速度和成本只说明了部分情况。工作的形态也可能改变。随着 Computer 用机器计算取代手动执行,用户可能会承担不同类型的工作——跨职业边界以及需要更高专业知识水平的任务。 首先,我们探究用户是否在使用 Computer 时比使用 Search 时更频繁地从事超出其推断的主要职业类别的工作。其次,我们使用五个任务级别的分类法比较同一用户的 Computer 和 Search 查询:安德森和克拉斯沃尔修订版 Bloom 认知目标分类学 (Anderson and Krathwohl 2001)、任务内容传统中抽象与常规工作的划分 (Autor, Levy, and Murnane 2003)、O*NET 知识广度 (National Center for O*NET Development 2026)、O*NET 工作活动广度,以及未曾用 Search 尝试过的新任务。 横向转变在数据中显而易见。在一个来自八个职业类别、包含 8,000 名用户所有查询的样本中,Computer 用户有 59% 的时间从事其首要职业以外的工作,而 Search 用户为 50%。增幅最大的类别出现在管理与创业、数字技术、艺术与设计、以及医疗保健与人类服务。跨职业的 Search 查询集中在数字技术领域,而 Computer 查询则将工作委托扩展到更多样化的领域,否则用户在这些领域需要专家。 八个职业类别之间的跨职业任务流。 ###### 八个职业类别之间的跨职业任务流。弧形箭头显示每个类别的主要流出目的地,线条宽度与目的地份额成正比,线条类型表示排名。Search 将跨职业流集中在数字技术领域,而 Computer 则将流分散到市场营销、管理、金融服务和其他执行性目的地。 纵向转变则更为显著。在一个来自同一组双产品用户的 5,000 次 Computer 查询和 5,000 次 Search 查询样本中,Computer 查询的认知复杂度高于 Search 查询。根据修订版 Bloom 分类学,76% 的 Computer 查询需要高阶认知,而 Search 为 55%。差异集中在顶层:50% 的 Computer 查询属于“创造”级别的任务,而 Search 为 26%。Search 在“记忆”级别的事实查找上有更多的集中度。在抽象与常规任务类型维度上,71% 的 Computer

相似文章

AI智能体的进步速度远超大多数人预期

Reddit r/AI_Agents

本文讨论了AI智能体在过去一年中的快速进步,重点介绍了它们在多步骤工作流、工具使用、编程和现实世界集成方面能力的提升,标志着从演示到实用数字工作者的转变。